Регресія до середньої загадки

9

У розділі "Регресія до середнього" Даніеля Канемана "Мислення, швидкий і повільний" наводиться приклад, і читача просять прогнозувати продажі окремих магазинів, враховуючи загальний прогноз продажів та кількість продажів за попередній рік . Наприклад (у прикладі книги є 4 магазини, тут я використовую 2 для простоти):

Store    2011    2012
1        100      ?
2        500      ?
Total    600     660

Наївний прогноз буде 110 і 550 для магазинів 1 і 2, на 10% більше для кожного. Однак автор стверджує, що цей наївний підхід є неправильним. Більш імовірно, що магазин, який працює в слабкій економіці, збільшиться більше ніж на 10%, а кращий продукт, який має більш високу ефективність, збільшиться (або навіть зменшиться) менше ніж на 10%. Тож, можливо, прогноз у 115 (на 15% більше) та 535 (7% зростання) був би "правильнішим", ніж наївний прогноз.

Що я не розумію, - як можна зробити висновок, що продажі 100 магазину 1 - це обов'язково слабкіший магазин? Можливо, через відмінності в розташуванні справжніми засобами часових рядів магазинів 1 і 2 є 10 і 550, а магазин 1 мав супер рік у 2011 році, а магазин 2 мав катастрофічний рік у 2011 році. Тоді чи не було б сенсу прогнозувати зменшення для магазину 1 та збільшення для магазину 2?

Я знаю, що інформація про часовий ряд не була наведена в оригінальному прикладі, але я маю враження, що "регресія до середньої" відноситься до середнього перерізу, і тому інформація про часовий ряд не має значення. Що я нерозумію?

regression

8

Я випадково читаю цю книгу. Ви не адекватно переписали ключову інформацію. У ній йдеться про те, що "всі магазини схожі за розмірами та вибором товарів, але їх продажі відрізняються через місцезнаходження, конкуренцію та випадкові фактори". Це головне, особливо останній біт. Випадкові фактори необхідні для регресу до середнього значення (якщо продажі зросли на фіксовану суму, то 10% приріст, рівномірно розподілений по магазинах, було б правильним).

— Пітер Флом
джерело

2

Ви хочете сказати, що припущення "всі магазини схожі" означає, що засоби їх часового ряду однакові? В іншому випадку два однакових магазини все ще можуть мати дуже різні засоби через розташування.

1

Я визнаю, це не найбільше формулювання проблеми, але це набагато чіткіше, ніж те, що ви мали у своєму первісному запитанні.

— Пітер Флом

2

Маючи так мало точок даних, відповідь буде майже повністю продиктована попереднім (або мається на увазі еквівалентом). Якщо автор раніше бачив багато подібних даних, вони, можливо, матимуть вагомі підстави вважати, що їх відповідь скоріше правильна, враховуючи минулі спостереження. Я думаю, що натякнути на думку, що це приклад регресу до середнього рівня, хоча, принаймні, не вказуючи додаткову інформацію. Наприклад, магазини у порівнянних місцях чи ні? Якщо вони є і немає інших очевидних відмінностей між магазинами, то ми можемо почувати себе виправданими, думаючи, що вони є частиною порівнянного населення, і ми можемо подумати про регресію до середнього. Якщо між магазинами є очевидні відмінності, які могли б пояснити систематичну різницю в продажах, то це стає менш розумним.

— Богдановіст
джерело

0

Я думаю, що краща (гіпотетична) ілюстрація може бути приблизно такою:

Store    2011    2012
1        100      ?
2        180      ?
3        190      ?
4        210      ?
5        235      ?
6        300      ?

Якщо забороняти систематичні причини, ми могли б очікувати, що найгірший виконавець (від випадкових причин) знову не стане таким. І так само для найкращого виконавця.

Отже, із середнім зростанням на 10%, я очікував, що №1 буде кращим, ніж 110, а №6 - гіршим, ніж 330.

Я відчуваю, що іфія частина - це припущення. Дуже рідко ІМХО відзначає, що відставання зграї є справді просто випадковою флюком, а не деякою основою неоднорідності.

— цікаво_cat
джерело