Причина, чому сюжети загальновикористовуються для введення простої регресії - відповіді, передбачуваної одним провісником, - це те, що вони допомагають зрозуміти.
Однак я вважаю, що можу дати щось аромат, який може допомогти зрозуміти, що відбувається. У цьому я здебільшого зосереджуся на спробі передати деяке розуміння, яке вони дають, що може допомогти з деякими іншими аспектами, з якими ти зазвичай зіткнешся, читаючи про регресію. Тож ця відповідь стосуватиметься головним чином конкретного аспекту вашої публікації.
Уявіть, що ви сидите перед великим прямокутним столом, таким як звичайний офісний стіл, один повний простір руки (можливо, 1,8 метра), можливо, наполовину ширший.
Ви сидите перед столом у звичайному положенні, посередині однієї довгої сторони. На цьому столі велика кількість цвяхів (з досить гладкими головами) забито у верхню поверхню, так що кожен трохи підскакує (достатньо, щоб відчути, де вони є, і достатньо, щоб прив'язати до них струну або прикріпити гумку ).
Ці цвяхи знаходяться на різній відстані від вашого краю письмового столу таким чином, що в напрямку до одного кінця (скажімо лівого кінця) вони, як правило, ближче до вашого краю письмового столу, а потім, коли ви рухаєтеся до іншого кінця, голівки цвяхів. прагнуть бути далі від вашого краю.
Далі уявіть, що було б корисно мати відчуття того, наскільки в середньому нігті знаходяться від вашого краю в будь-якому положенні по вашому краю.
Виберіть деяке місце уздовж краю письмового столу і покладіть туди руку, потім простягніть вперед прямо через стіл, обережно перетягуючи руку прямо назад до вас, потім знову, рухаючи рукою вперед-назад над голівками нігтів. Ви зустрічаєте кілька десятків ударів від цих нігтів - тих, що знаходяться на тій вузькій ширині вашої руки (коли вона віддаляється безпосередньо від вашого краю, на постійній відстані від лівого кінця письмового столу), секцію або смужку, приблизно приблизно десять сантиметрів завширшки. .
Ідея полягає у тому, щоб визначити деяку середню відстань до цвяха від вашого краю письмового столу в цьому невеликому розділі. Інтуїтивно це лише середина ударів, в які ми потрапили, але якби ми виміряли кожну відстань до нігтя в тій частині ширини ручної ширини, ми могли б легко обчислити ці середні показники.
Наприклад, ми могли б скористатися Т-квадратом , голова якого ковзає по краю письмового столу і вал якого рухається в бік іншого столу, але трохи вище письмового столу, щоб ми не вдарили цвяхи, коли він ковзає вліво або праворуч - під час проходження даного цвяха ми можемо отримати його відстань уздовж валу Т-квадрата.
Тож при прогресуванні місць уздовж нашого краю ми повторюємо цю вправу, щоб знайти всі цвяхи в смузі ширини руки, що біжить до нас і від них, і знайти їх середню відстань. Можливо, ми поділимо письмовий стіл на смужки шириною руки уздовж нашого краю (тому кожен цвях зустрічається рівно однією смужкою).
А тепер уявіть, що було сказано 21 таку смужку, перша біля лівого краю та остання біля правого краю. Засоби віддаляються від нашої стільниці, коли ми просуваємося по смугах.
Ці засоби утворюють простий непараметричний оцінювач регресії очікування y (наш відстань), заданий x (відстань уздовж нашого краю від лівого кінця), тобто E (y | x). Зокрема, це подвійний непараметричний оцінювач регресії, який також називають регресограмою
Якщо ці засоби смужки збільшувались регулярно - тобто середнє значення, як правило, збільшувалося приблизно на таку ж кількість на смугу, як і ми, рухаючись по смугах, - тоді ми могли б краще оцінити нашу регресійну функцію, вважаючи, що очікуване значення y було лінійним функція x - тобто, щоб очікуване значення y заданого x було постійним плюс кратне x. Тут константа представляє, де цвяхи, як правило, дорівнюють нулю (часто ми можемо розмістити це в крайньому лівому краї, але це не повинно бути), а конкретний кратний х є тим, наскільки швидкий в середньому середній змінюється, коли ми рухаємося на один сантиметр (скажімо) праворуч.
Але як знайти таку лінійну функцію?
Уявіть, що ми накручуємо по одній гумці на кожну головку нігтів і прикріплюємо кожну довгу тонку паличку, що лежить трохи вище письмового столу, поверх нігтів, щоб вона лежала десь біля "середини" кожної смужки, яку ми мали бути для.
Ми прикріплюємо смуги таким чином, щоб вони тільки тягнулися в напрямку до та від нас (не ліворуч чи праворуч) - ліворуч до себе вони потягнулися б так, щоб зробити напрямок розтягування під прямим кутом за допомогою палиці, але тут ми перешкоджаємо цьому, щоб їх напрямок розтягування залишався лише в напрямку до нашої сторони або від неї. Тепер ми даємо палиці осісти, коли смуги тягнуть її до кожного нігтя, при цьому більш віддалені цвяхи (з більш розтягнутими гумками) підтягуються відповідно сильніше, ніж цвяхи, близькі до палички.
Тоді комбінованим результатом того, що всі стрічки натягнуть на палицю, було б (в ідеалі, принаймні) витягнути палицю, щоб мінімізувати суму квадратних довжин натягнутих гумок; у цьому напрямку безпосередньо через таблицю відстань від нашого краю столу до палички в будь-якому даному положенні x буде нашою оцінкою очікуваного значення y заданого x.
Це по суті лінійна оцінка регресії.
А тепер уявіть, що замість нігтів у нас багато фруктів (на зразок маленьких яблук), що звисають з великого дерева, і ми хочемо знайти середню відстань плодів над землею, оскільки вона змінюється залежно від положення на землі. Уявіть, що в цьому випадку висота над землею збільшується, коли ми рухаємось вперед і трохи більше, коли рухаємось вправо, знову регулярно, тому кожен крок вперед зазвичай змінює середню висоту приблизно на стільки ж, а кожен крок до Право також змінить середнє значення приблизно на постійну величину (але ця ступінчаста величина зміни середнього значення відрізняється від величини, що крокує вперед).
Якщо ми мінімізуємо суму квадратних вертикальних відстаней від плодів до тонкого плоского аркуша (можливо, тонкого листа з дуже жорсткого пластику), щоб зрозуміти, як змінюється середня висота, коли ми рухаємось вперед або крокуємо праворуч, це було б лінійна регресія з двома предикторами - множинна регресія.
Це єдині два випадки, які сюжети можуть допомогти зрозуміти (вони можуть швидко показати те, що я щойно описав, але, сподіваємось, ви знаєте, є підстава для концептуалізації тих же ідей). Крім цих найпростіших двох випадків, нам залишається лише математика.
Тепер візьмемо приклад ціни вашого будинку; ви можете зобразити площу кожного будинку на відстані уздовж вашого краю письмового столу - представляйте найбільший розмір будинку як положення біля правого краю, кожен інший розмір будинку буде деяким положенням лівіше, де певна кількість сантиметрів представлятиме деяку кількість кількість квадратних метрів. Тепер відстань представляє ціну продажу. Представляйте найдорожчий будинок як деяку відстань біля самого віддаленого краю письмового столу (як завжди, край, віддалений від вашого стільця), і кожен зсунутий сантиметр подаватиме деяку кількість ріалів.
Для представників уявімо, що ми обрали представлення таким чином, щоб лівий край письмового столу відповідав нульовій площі будинку, а найближчий край - ціною будинку в 0. Потім ми вкладаємо цвях для кожного будинку.
У нас, мабуть, не буде цвяхів біля лівого кінця нашого краю (вони можуть бути в основному праворуч і далеко від нас), оскільки це не обов'язково є вдалим вибором масштабу, але ваш вибір моделі без перехоплення робить це кращий спосіб обговорити це.
Тепер у вашій моделі ви змушуєте палицю проходити через петлю струни в лівому куті найближчого краю письмового столу - таким чином, змушуючи встановлену модель мати нульову ціну за нуль, що може здатися природним - але уявіть, якщо є деякі досить постійні компоненти ціни, які вплинули на кожен продаж. Тоді було б сенс, щоб перехоплення відрізнялося від нуля.
У будь-якому випадку, додаючи цю петлю, та сама вправа, як і раніше, знайде оцінку найменших квадратів лінії.