Чи не вдалося попереднім дослідникам виявити гарячу руку просто через статистичну помилку?


11

Багато вболівальників / гравців баскетболу вважають, що, зробивши кілька пострілів поспіль, наступний удар, швидше за все, вдасться.

Починаючи (я думаю) з Гіловичем, Маллоном та Тверським (1985) , було "показано", що це насправді помилка. Навіть якщо кілька кадрів поспіль було зроблено, наступний кадр не має більшої ймовірності, ніж диктує ваш середній відсоток стрільби.

Міллер і Санджуржо (2015) стверджують, що гаряча рука насправді існує, і попередні дослідники просто стали здобиччю досить основної помилки у статистиці. Їх аргумент є приблизно таким:

Переверніть монету чотири рази. Обчисліть ймовірність того, що H слідує за H. Наведіть кілька прикладів: HHTT матиме ймовірність 1/2, HTHT матиме ймовірність 0/2, TTHH матиме ймовірність 0/1 1/1, і TTTT і TTTH були би NA

Удар Міллера і Санджуріо полягає в тому, що очікуване значення такої ймовірності не 0,5, а ≈0,4. І помилка, допущена попередніми дослідниками, полягала в неправильному припущенні, що очікуване значення такої ймовірності становить 0,5. Отож, якщо, наприклад, ці попередні дослідники провели вищевказаний експеримент із перевертанням монет і виявили середню ймовірність 0,497, вони неправильно зробили висновок, що немає жодних доказів гарячої руки (не суттєво відрізняється від 0,5), коли насправді було дуже вагомі докази гарячої руки (суттєво відрізняються від 0,4).

Моє запитання таке: чи правильні Міллер і Санджуріо, що попередні дослідники не змогли виявити гарячу руку просто через цю помилку? Про це я лише зняв одну-дві статті, тому хотів отримати підтвердження від когось, хто може краще знати цю літературу. Це здається напрочуд нерозумною помилкою, яка зберігається три десятки років і більше.


3
Це небезпечне питання для цього сайту в тому сенсі, що його досить важко оцінити, особливо для сторонніх. І саме так ми «визначаємо» найкращі відповіді, голосуючи більшістю голосів. Не забудьте прочитати всі відповіді та голосувати лише за ті, що здаються правильними після прочитання їх, і голосуйте за ті, що залишають вас незадоволеними / підозрілими.
FooBar

1
Це тому, що правильна відповідь може бути протиінтуїтивно зрозумілою. Якби такий сайт, як цей, існував 60 років тому, я не думаю, що правильна відповідь на проблему Monty Hall - яка має подібні властивості - вийде на перше місце шляхом голосування більшості.
FooBar

@FooBar, щоб додати свою думку, тут виникають одразу два складні питання: (1) "Який математичний ефект, про який обговорюють Міллер та Санджуро" --- це не питання, яке задавали Кенні Л. Дж., Але це гарне запитання, тому що для розуміння потрібне багато читання і є відносно об'єктивним. Тоді (2) є "Чи це недійсне попереднє дослідження", яке здається суб'єктивним та на основі думки ....
usul

@usul: В деяких випадках в економіці це друге питання ("Чи це недійсне попереднє дослідження?") є справді більш суперечливим і на основі думки - наприклад, суперечка з доповіддю Райнхарта та Рогофа (2010). Але я думаю, що в цьому випадку у нас чітко визначена математична проблема. І як я намагався показати у своїй відповіді нижче (яку я тільки що переписав ще раз для ясності та стислості), Міллер та Санджуржо (2015) дійсно досягли успіху в тому, щоб визнати висновки Гіловича, Маллоне та Тверського (1985) недійсними.
Kenny LJ

@KennyLJ, вони показали, що один із доказів у документі 1985 р. Недійсний. Це зовсім інше питання, ніж показ, що висновок недійсний, наприклад, показ того, що ефект гарячої руки безумовно існує.
usul

Відповіді:


6

(Цю відповідь було повністю переписано для більшої ясності та читабельності в липні 2017 року.)

Переверніть монету 100 разів поспіль.

Огляньте фліп одразу після смужки трьох хвостиків. Нехай - частка монети, яка перегортається після кожної смужки трьох хвостиків підряд, які є головами. Аналогічно, нехай - пропорція перевертання монети після кожної смужки з трьох головок підряд, які є головами. ( Приклад внизу цієї відповіді. ) р (Н|3Н)p^(H|3T)p^(H|3H)

Нехай .x:=p^(H|3H)p^(H|3T)

Якщо монета перевертається в iid, то "очевидно", в багатьох послідовностях по 100 монет,

(1) Очікується, що трапляється так само часто, як .x < 0x>0x<0

(2) .E(X)=0

Ми генеруємо мільйон послідовностей по 100 монетних переворотів і отримуємо наступні два результати:

(I) трапляється приблизно так само часто, як .x < 0x>0x<0

(II) ( - середнє значення у мільйонах послідовностей). ˉ x xx¯0x¯x

І тому ми робимо висновок, що монети обертаються дійсно ідентично, і немає ніяких доказів гарячої руки. Це зробив GVT (1985) (але з баскетбольними пострілами на місці монети). І ось як вони зробили висновок, що гарячої руки не існує.


Пробіжна лінія: Шокуюче (1) та (2) невірні. Якщо монета перевертається в iid, то вона повинна бути такою

(1-виправлено) трапляється лише приблизно 37% часу, тоді як трапляється приблизно 60% часу. (У решті 3% часу або або не визначено - або тому, що не було смуги 3H, або не було смуги 3T у 100 сальто.)x < 0 x = 0 xx>0x<0x=0x

(2 виправлено) .E(X)0.08

Інтуїція (або контр-інтуїція), що стосується подібних, як у декількох відомих загадках імовірностей: проблема Монті Холла, проблема двох хлопців та принцип обмеженого вибору (у мосту карткової гри). Ця відповідь вже досить довга, і тому я пропускаю пояснення цієї інтуїції.

І тому самі результати (I) та (II), отримані GVT (1985), насправді є вагомим свідченням на користь гарячої руки. Це показали Міллер та Санджуржо (2015).


Подальший аналіз GVT таблиці 4.

Багато хто (наприклад, @scerwin нижче), - не турбуючись читати GVT (1985) - висловили невіру, що будь-який «навчений статистик коли-небудь» прийме в середньому середні показники в цьому контексті.

Але саме це зробив GVT (1985) у своїй таблиці 4. Дивіться їх таблицю 4, стовпці 2-4 та 5-6, нижній ряд. Вони вважають, що це в середньому для 26 гравців,

рp^(H|1M)0.47 і ,p^(H|1H)0.48

рp^(H|2M)0.47 і ,p^(H|2H)0.49

рp^(H|3M)0.45 і .p^(H|3H)0.49

Насправді так буває, що для кожного усереднене . Але здається, що аргумент GVT полягає в тому, що вони не є статистично значимими, і тому вони не є доказом на користь гарячої руки. Добре справедливо.р ( Н | до Н ) > р ( Н | до М )k=1,2,3p^(H|kH)>p^(H|kM)

Але якщо замість того, щоб брати середній показник середніх показників (такий крок, який деякі вважають неймовірно дурним), ми повторимо їх аналіз та об'єднаємо всіх 26 гравців (по 100 пострілів за кожного, за деякими винятками), ми отримаємо наступну таблицю зважених середніх значень.

Any                     1175/2515 = 0.4672

3 misses in a row       161/400 = 0.4025
3 hits in a row         179/313 = 0.5719

2 misses in a row       315/719 = 0.4381
2 hits in a row         316/581 = 0.5439        

1 miss in a row         592/1317 = 0.4495
1 hit in a row          581/1150 = 0.5052

У таблиці наведено, наприклад, що 26 гравців було зроблено 2515 пострілів, з яких 1175 або 46,72%.

І з 400 випадків, коли гравець пропустив 3 поспіль, 161 або 40,25% одразу ж супроводжувались ударами. І з 313 випадків, коли гравець вдарив 3 підряд, 179 або 57,19% негайно супроводжувались ударами.

Наведені вище середньозважені середні показники здаються вагомим свідченням на користь гарячої руки.

Майте на увазі, що експеримент зі стрільби був налаштований так, що кожен гравець стріляв з місця, де було визначено, що він може зробити приблизно 50% своїх пострілів.

(Примітка: "Дивно", як показано в таблиці 1 для дуже подібного аналізу з ігровою стріляниною Шестрів, натомість GVT представив середньозважені середні показники. То чому б вони не зробили те ж саме для таблиці 4? Моя думка, що вони Звичайно, вирахували середньозважені середні показники для таблиці 4 - цифри, які я подаю вище, не сподобалось побаченому та вирішили придушити їх. Така поведінка, на жаль, не відповідає курсу в академічних школах.)


Приклад : Скажіть, у нас є послідовність (лише є хвостиками, решта 97 переворотів - усі голови). Тоді тому що є лише 1 смужка з трьох хвостів, і фліп одразу після цієї смуги - голови.р ( Н | 3 Т ) = 1 / 1 = 1HHHTTTHHHHHHp^(H|3T)=1/1=1

І тому що є 92 прожилки з трьох голів, а для 91 з цих 92 прожилок, фліп відразу після - це голови.p^(H|3H)=91/920.989


Таблиця 4 PS GVT (1985) містить кілька помилок. Я помітив щонайменше дві помилки округлення. А також для гравця 10, круглі значення в стовпцях 4 і 6 не додають до одного менше, ніж у стовпці 5 (всупереч примітці внизу). Я зв’язався з Гіловичем (Тверський мертвий, а Валлоне я не впевнений), але, на жаль, у нього більше немає оригінальних послідовностей хітів і промахів. Таблиця 4 - це все, що ми маємо.


Дивлячись на таблицю 4 GMT 1985 року, вони тестували 26 окремих студентів і знайшли лише один приклад статистично значущої "гарячої руки" (вони перевіряли кожен випадок проти p <0,05). Це ефект зеленої квасолі . Як убік, якби кожен студент був точно розміщений так, де він / вона міг зробити близько 50% своїх знімків, то у багатьох менше 7 учнів повинні були бути показники ударів поза діапазоном 40-60 із 100 (якщо тільки є масивний ефект гарячої руки)
Генріх

4

(Відмова: Я не знаю цієї літератури.) Мені здається, що Міллер і Санджуржо мають вагому критику щодо певного статистичного заходу. Я не знаю, чи слід вважати, що це визнає недійсним всю попередню роботу над ефектом гарячої руки, оскільки вони зосереджені лише на цьому конкретному заході.

Захід є

M:=P(make shot | made previous shot)P(make shot | miss previous shot)
де насправді означає "частку разів сталося ».P(X)X

Попередні роботи, такі як [Гілович, Маллоне, Тверський, 1985], стверджують, що близькість до нуля або негативу свідчить про відсутність ефекту гарячої руки. Неявне припущення полягає в тому, що якщо є ефект гарячої руки, а іншому випадку. (Див. Підрозділ Аналіз умовних ймовірностей у дослідженні 2.)MEM>0EM=0

Однак Міллер і Санджуржо зазначають, що якщо немає ефекту гарячої руки. Отже , близькість до нуля не говорить про відсутність ефекту гарячої руки.EM<0M

Отже, підсумовуючи підсумок, я фактично не відповів на ваше запитання про те, чи цей документ визнає недійсним попередню роботу над ефектом "гарячої руки" (який використовує безліч різних статистичних заходів), але мені здається, що цей документ робить вагомий пункт стосовно цього конкретного статистичного заходу . Зокрема, наприклад, Гілович, Маллоун, Тверський використовує непозитивність як один із підтверджуючих доказів, і цей документ показує недолік у цьому аргументі.M


3

Жодна з двох публікацій не є достатньо чіткою щодо їх застосування статистичних даних, тому в цій відповіді я спробую роз'яснити.

Гілович, Маллоун та Тверський (1985) у своїй Анотації визначають "ефект гарячої руки" так:

" Баскетболісти і вболівальники, як правило, вважають, що шанси гравця нанести удар більше після удару, ніж після промаху попереднього удару. "

Потім попередній кадр поширюється на попередні "один, два чи три" знімки. Позначаючи серію послідовних хітів та серію послідовних промахів , наявність ефекту «Гарячої руки» визначається якkHkkMk

(1)P(HHk)>P(HMk),k1

що стосується компактності, то розуміється, що розглянутий кадр - це безпосередньо після послідовних ударів чи промахів. Це теоретичні умовні ймовірності (тобто константи), а не умовні відносні емпіричні частоти.

Як автори намагаються перевірити існування ефекту гарячої руки? Вони отримують емпіричні дані, обчислюють умовні відносні емпіричні частоти (які є випадковими змінними) і вони виконують t-тести з нульовою гіпотезою (стор. 299-300)P^(HHk),P^(HMk)

Ho:P(HHk)P(HMk)=0

Зазначимо, що цей тест слабший, ніж тест на незалежність пострілів: ці ймовірності можуть бути рівними, але все ж відрізнятися від безумовної ймовірності .P(H)

Природно, що використовується статистика - . Автори виявляють, що нуль відкидається на звичайних рівнях значущості, але в напрямку проти гіпотези "Гаряча рука": значення t досить велике, але негативне.TP^(HHk)P^(HMk)

Тоді питання: чи тест дійсний? По-перше, для того, щоб емпіричні частоти послідовно оцінювали невідомі ймовірності, слід мати випадок, що зразок є ергодично-стаціонарним. У цьому випадку (див. Обговорення на с.297). Тоді інше, що залишається під питанням - це розподіл статистичної ? Чи добре він апроксимується розподілом Стьюдента для кінцевих вибірок (оскільки це використовуються критичні значення розподілу Стьюдента)? А для яких розмірів?T

Те, що роблять Міллер і Санджурьо (2015) , - це стверджувати (і, мабуть, доводити), що "точний" (скінченний зразок) розподіл має незначне негативне перекос і ненульове очікуване значення (див. С. 18- 19). Якщо це так, використання t-тесту може ввести в оману , принаймні, для кінцевих зразків, але він може залишатися дійсним асимптотично / для "великих" зразків.T

Тому, якщо є проблема з Гіловичем та ін. папір, це не визначення "Гарячої руки", це не формулювання нульової гіпотези, це не вибір статистики, яку слід використовувати: це достовірність критичних значень, що використовуються для виконання тестів ( і так з прихованого розподілу припущення), якщо дійсно кінцевий, розподіл малої вибірки (за нульовою гіпотезою) видимо нецентризований у нулі, а також несиметричний.

У таких випадках, як правило, потрібно отримати симуляцію спеціальних критичних значень для проведення тесту (згадайте, наприклад, спеціальні критичні значення для тесту Діккі-Фуллера для одиничного кореня). Мені не вдалося побачити такий підхід у папері Міллера-Санджуріо, вони виконують "середнє коригування зміщення" і виявляють, що після цього коригування висновок з тесту буде перетворений. Я не впевнений, що це шлях.

Тим не менш, грубе моделювання підтверджує результати Міллера-Санджуржо щодо розподілу статистики. Я моделював зразків кожного розміру незалежного Бернуліса з . Емпіричний розподіл статистики має вибіркове середнє значення і медіану , при цьому значень є від'ємними . Емпірична гістограма єп = 100 р = 0,5 Т 3 = Р ( Н | Н 3 ) - Р ( Н | М 3 ) - 0,0807 - 0,072 62,5 %200n=100p=0.5
T3=P^(HH3)P^(HM3)0.08070.07262.5%

введіть тут опис зображення


1

На мій погляд, Міллер і Санджурйо просто неправильно обчислили відносні частоти в таблиці 1. Їх таблиця показана нижче із доданими двома новими стовпцями, які підраховують кількість підрядів HH та HT, що виникають у межах кожної послідовності 4 обертів монети. Для отримання бажаної умовної ймовірності p (H | H) треба підсумовувати ці рахунки N (HH) і N (HT), а потім ділити, як показано нижче. Це дає p (H | H) = 0,5, як очікувалося. Чомусь Міллер і Санджурйо спочатку розраховували відносну частоту для кожної послідовності, а потім усереднювали по послідовностях. Це просто неправильно.

Sequence     Subsequences       N(HH) N(HT)    p(H|H)
TTTT  ->  TT.. , .TT. , ..TT      0     0        -  
TTTH  ->  TT.. , .TT. , ..TH      0     0        -  
TTHT  ->  TT.. , .TH. , ..HT      0     1       0.0 
THTT  ->  TH.. , .HT. , ..TT      0     1       0.0 
HTTT  ->  HT.. , .TT. , ..TT      0     1       0.0 
TTHH  ->  TT.. , .TH. , ..HH      1     0       1.0 
THTH  ->  TH.. , .HT. , ..TH      0     1       0.0 
THHT  ->  TH.. , .HH. , ..HT      1     1       0.5 
HTTH  ->  HT.. , .TT. , ..TH      0     1       0.0 
HTHT  ->  HT.. , .TH. , ..HT      0     2       0.0 
HHTT  ->  HH.. , .HT. , ..TT      1     1       0.5 
THHH  ->  TH.. , .HH. , ..HH      2     0       1.0 
HTHH  ->  HT.. , .TH. , ..HH      1     1       0.5 
HHTH  ->  HH.. , .HT. , ..TH      1     1       0.5 
HHHT  ->  HH.. , .HH. , ..HT      2     1       0.66
HHHH  ->  HH.. , .HH. , ..HH      3     0       1.0 
                                 --    --       ----
                                 12    12       0.40
                            p(H|H)=N(HH)/N(H*)
                                  =12/(12+12)
                                  =0.5

Їх аргумент полягає в тому, що замість обчислення окремих випадків TT і TH (як ви робили) ймовірності p (H | H) слід усереднювати (оскільки всі послідовності однаково вірогідні).
Giskard

1
Можливо, простіша таблиця зробить їх помилку більш очевидною. Дозвольмо лише дві конкретні 4-фліп-послідовності: TTHT і HHHH. Вони дають наступні 2-фліп послідовності: TT, TH, HT, HH, HH, HH. З цього списку досить очевидно, що коли перша перевернута монета показує Н, дуже ймовірно, що за нею слідує ще одна Н (це трапляється 3 з 4 разів). Досить "гарячої монети" справді! Але метод Міллера і Санджурьо передбачив взагалі відсутність нагрівання, оскільки середнє значення частот для TTHT і HHHH (0,0 і 1,0) становить 0,5. З іншого боку, звичайний метод дає правильну відповідь: p (H | H) = 3 / (3 + 1) = 0,75.
scerwin

Я думаю, їхня суть полягає в тому, що ця «помилка», яку ви вказуєте, була саме тим, що робили раніше дослідники.
Кенні LJ

1
Може бути. Але чи правильно це твердження про попередніх дослідників? Жоден підготовлений статистик ніколи не вирахував би ймовірність так, як це зробили Міллер та Санджуржо в таблиці 1. Це аналогічно обчисленню середнього середнього рівня для бейсболіста, спочатку обчислюючи його середнє значення для кожної гри, а потім усереднюючи по іграх. Це просто неправильно.
scerwin

"Але чи правильно це твердження про попередніх дослідників? Жоден підготовлений статистик ніколи не вирахував би ймовірність так, як це зробили Міллер та Санджуржо в таблиці 1." Можливо, ви дійсно повинні витратити час, щоб прочитати статті, про які йдеться. Особливо GVT (1985).
Kenny LJ

0

У будь-якій послідовності, що спостерігається, останній умовний "відсутній" в тому сенсі, що після цього немає значення. Автори займаються цим, просто ігноруючи випадки, коли це відбувається, кажучи, що вони не визначені. Якщо серія буде короткою, цей вибір матиме очевидний вплив на розрахунки. Малюнок 1 є гарною ілюстрацією цієї ідеї.


-1

Я збираюся змінити коментар, який я зробив вище, на відповідь, і стверджую, що відповідь на початкове запитання полягає в тому, що оригінальні документи є правильними. Автори статті 2015 викидають послідовності, які логічно повинні бути включені до їх аналізу, як я описую в коментарі, і тому вводять упередженість, яка підтримує їхні твердження. Світ працює як слід.

Додаток у відповідь на коментар: Ми дивимось таблицю 1 у статті. Ми бачимо, що ми викидаємо 4 значення з останнього стовпця, тож для отримання очікуваної різниці ми лише в середньому перевищуємо 12 з 16 послідовностей. Якщо ми розглянемо ці ймовірності як частоти, і ми скажемо, для першого рядка TTTT, яка частота, з якою голова слідує за головою, то логічно це завжди відбувається, і ми повинні поставити 1 в p (H, H ) стовпчик, а не тире. Ми робимо це для інших трьох послідовностей, які ми викинули, і робимо висновок, що очікуване значення різниці дорівнює 0, а не -3,33. Ми не можемо просто викинути такі дані, коли є чітка логічна інтерпретація даних.

Зауважимо, що для того, щоб дрейф зник, ми повинні правильно обчислити ймовірності, що не робиться в роботі. Вірогідності в таблиці стверджуються як "ймовірність того, що голова слідує за хвостом у цій заданій послідовності з чотирьох закидів". І ми бачимо, що для рядка TTTH ми повинні вважати, що ймовірність становить 1/3. Це не. У ряді чотири кидки, і одна з чотирьох кидок у тому ряду - це подія "голова йде за хвіст". Ймовірність становить 1/4. Тож обчисліть ймовірності правильно та використовуйте всі рядки, і ви отримаєте відповідь, прийняту протягом 30 років.


Питання в тому, чи правильно Міллер і Санджуржо (2015) вказують на те, що попередні дослідники допустили помилку (і так не змогли виявити гарячу руку). Якщо так, поясніть, будь ласка. Якщо ні, будь ласка, поясніть. Питання не в тому, чи можемо ми чи не можемо «просто викинути подібні дані», чи в тому, що «світ працює так, як слід».
Кенні ЛЖ

Міллер і Сандюро не коректні, оскільки вони викидають дані, що логічно належать до аналізу, і тому вводять упередження, якого немає у світі.
user164740
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.