Чи повинен "нормальний розподіл" мати середній = середній = режим?


17

Я вела дискусію зі своїм професором статистики на рівні випускників про "нормальні розподіли". Я стверджую, що для дійсного отримання нормального розподілу необхідно мати середній = середній = режим, всі дані повинні міститись під кривою дзвону та ідеально симетрично навколо середнього. Тому технічно практично немає нормальних розподілів у реальних дослідженнях, і ми повинні їх називати чимось іншим, можливо, «майже нормальним».

Вона каже, що я занадто прискіплива, і якщо перекос / куртоз менше 1,0, це нормальний розподіл і набрав бали на іспиті. Набір даних - це загальна кількість падінь / рік у випадковій вибірці 52 будинків престарілих, що є випадковою вибіркою більшої кількості населення. Будь-яке розуміння?

Проблема:

ЗАПИТАННЯ: 3. Обчислити міри косості та куртозу за цими даними. Включіть гістограму з нормальною кривою. Обговоріть свої висновки. Чи нормально поширюються дані?

Statistics 
Number of falls  
N  Valid    52
   Missing   0
Mean        11.23
Median      11.50
Mode         4a

а. Існує кілька режимів. Показано найменше значення

Number of falls  
N  Valid    52
   Missing   0
Skewness      .114
Std. Error of Skewness    .330
Kurtosis  -.961
Std. Error of Kurtosis    .650

Моя відповідь:

Дані платикуртичні і мають лише незначне позитивне перекос, і це НЕ є нормальним розподілом, оскільки середнє значення та медіана та режим не рівні, а дані не рівномірно розподілені навколо середнього. Насправді практично немає даних, які завжди є ідеальним нормальним розподілом, хоча ми можемо обговорити "приблизно нормальні розподіли", такі як висота, вага, температура або довжина кільця пальця дорослих у великих групах населення.

Відповідь професора:

Ви вірні, що немає абсолютно нормального розподілу. Але ми не шукаємо досконалості. Нам потрібно переглянути дані, крім гістограми та заходів центральної тенденції. Що показує статистика косості та куртозу про розподіл? Оскільки вони знаходяться між критичними значеннями -1 та +1, ці дані вважаються нормально розподіленими.


3
Я хотів би знати точне формулювання вашого професора. У принципі нормальний розподіл має однакове середнє, медіанне та режим (але це так само, як і багато інших розподілів) і має косисть 0 та (так званий надлишок) куртоз 0 (так само, як і деякі інші розподіли). У кращому випадку розподіл з (наприклад) незначним перекосом або куртозом є приблизно нормальним. Зауважимо, що майже всі реальні дані в кращому випадку наближені до названих розподілів у теоретичній менажерії.
Нік Кокс

22
Я не згоден з @ user2974951 У компанії з кожним добрим текстом, який я знаю, я абсолютно радий, думаючи, що нормальний розподіл має медіану та режим. І це широко стосується безперервного розповсюдження, хоча я не сумніваюся, що патологічні зустрічні приклади можна виявити.
Нік Кокс

4
Дякую за конкретну деталь, яка демонструє заслуги з обох сторін, але я не оцінюю жодного з вас. Однак я категорично не відповідаю за терміном критичних значень , який використовує ваш професор, оскільки межі для косості та куртозу не мають жодних принципів, окрім правил, які можуть бути використані. Залежно від того, що ви робите з даними, скасованість < 1 може йти разом із бажанням перетворити дані, а косості > 1 можуть узгоджуватися із залишеними даними такі, як вони є, і аналогічно для куртозу. ±1<1>1
Нік Кокс

6
Якщо ми серйозно дозволимо собі сприйняти мистецтво нітрозування, нам слід зауважити, що негативних падінь немає, а падіння дискретні, тому розподіл фактично не може бути нормальним. Це робить питання в першу чергу недійсним. Що стосується більш серйозної уваги, питання, очевидно, є сфабрикованим прикладом, що має на меті перевірити конкретні правила. Насправді, залежно від мети нашого дослідження, може бути прийнятним або не припускати нормального розподілу. По правді, ми ніколи не дізнаємось, оскільки у нас є лише зразок.
Іоанніс

5
@ user2974951 Ви повинні розглянути питання про видалення першого коментаря, оскільки ви не погоджуєтесь з ним зараз. Поки що він обдурив трьох читачів, щоб дати їм згоду!
качан

Відповіді:


25

Проблема вашої дискусії з професором - це термінологія, є непорозуміння, яке перешкоджає передачі потенційно корисної ідеї. У різних місцях ви обоє робите помилки.

Тож перше, що слід звернути увагу: важливо бути досить зрозумілим, що таке розподіл .

Нормальний розподіл - це специфічний математичний об'єкт, який можна розглянути як модель для нескінченної сукупності значень. (Жодне обмежене населення насправді не може мати постійний розподіл.)

Неодмінно те, що робить цей розподіл (як тільки ви задаєте параметри), визначає (за допомогою алгебраїчного виразу) частку значень сукупності, яка лежить в будь-якому заданому інтервалі на реальній лінії. Трохи менш вільно він визначає ймовірність того, що одне значення з цієї сукупності буде лежати в будь-який даний інтервал.

Спостережуваний зразок насправді не має нормального розподілу; зразок (потенційно) може бути взятий з звичайного розподілу, якби воно існувало. Якщо ви подивитеся на емпіричний cdf зразка, він дискретний. Якщо бін (як в гістограмі), зразок має "розподіл частоти", але це не нормальні розподіли. Розподіл може розповісти нам про деякі випадки (у ймовірнісному розумінні) про випадкову вибірку з популяції, а вибірка може також розповісти нам про речі.

Розумна інтерпретація фрази на зразок "нормально розподілений зразок" * є "випадковою вибіркою з нормально розподіленої сукупності".

* (Я, як правило, намагаюся уникати того, щоб сказати це сам, з тих причин, які, сподіваюся, досить зрозумілі тут; зазвичай мені вдається обмежитися другим висловом.)

Визначивши терміни (якщо ще трохи вільно), давайте тепер детально розглянемо питання. Я торкнуся конкретних запитань.

нормальний розподіл повинен мати середнє = середній = режим

Це, безумовно, умова нормального розподілу ймовірностей, хоча не є вимогою до вибірки, взятої з нормального розподілу; зразки можуть бути асиметричними, можуть мати середню різницю від медіани тощо. [Однак ми можемо отримати уявлення про те, наскільки далеко ми можемо з розумом розраховувати, що вибірки дійсно отримають від нормальної сукупності.]

всі дані повинні міститися під кривою дзвону

Я не впевнений, що в цьому сенсі означає "міститься під".

і ідеально симетричні навколо середнього.

Ні; Ви говорите про дані тут, і вибірка (звичайно симетричної) нормальної сукупності сама по собі не була б ідеально симетричною.

Тому технічно практично немає нормальних розподілів у реальних дослідженнях,

Я згоден з вашим висновком, але міркування невірні; це не наслідок того, що дані не є ідеально симетричними (тощо); справа в тому, що популяції самі по собі не є абсолютно нормальними .

якщо перекос / куртоз менше 1,0, це нормальний розподіл

Якщо вона сказала це саме так, вона напевно помиляється.

Скісність вибірки може бути набагато ближчою до 0 (ніж "менше" означає абсолютну величину, а не фактичну величину), а надлишковий куртоз зразка також може бути набагато ближче до 0 (ніж вони можуть бути навіть випадково чи конструкція, потенційно може бути майже точно нульовою), і все ж розподіл, з якого було взято зразок, може бути явно ненормативним.

Ми можемо піти далі - навіть якби ми магічно знали, що косоокість населення та куртоз були абсолютно нормальними, це все одно само по собі не скаже нам, що населення нормальне, навіть навіть щось близьке до нормального.

Набір даних - це загальна кількість падінь / рік у випадковій вибірці 52 будинків престарілих, що є випадковою вибіркою більшої кількості населення.

Розподіл чисельності населення ніколи не буває нормальним. Підрахунки - це дискретні та негативні, нормальні розподіли - безперервні та по всій реальній лінії.

Але ми дійсно зосереджені на неправильній проблемі тут. Моделі ймовірності - це саме це, моделі . Не будемо плутати наші моделі з реальними .

Проблема не в тому, "чи самі дані є нормальними?" (вони не можуть бути), а також "чи нормальна кількість населення, з якого отримані дані?" (це майже ніколи не буде).

Більш корисним питанням для обговорення є "наскільки погано вплине моє висновок, якби я ставився до населення як до нормального розподілу?"

На це також відповісти набагато складніше, і це може зажадати значно більше роботи, ніж огляд декількох простих діагнозів.

Вибірна статистика, яку ви показали, не особливо суперечить нормальності (ви можете бачити подібні статистичні дані або "гірше" не дуже рідко, якщо у вас були випадкові вибірки такого розміру з нормальної сукупності), але це само по собі не означає, що фактична кількість населення з якого взяли зразок, автоматично «досить близько» до нормальної для певної мети. Важливо було б врахувати мету (на які запитання ви відповідаєте) та надійність застосованих для цього методів, і навіть тоді ми все ще не можемо бути впевнені, що це "досить добре"; іноді може бути краще просто не припускати, що у нас немає вагомих причин вважати апріорі (наприклад, на основі досвіду подібних наборів даних).

це НЕ нормальний розподіл

Дані - навіть дані, отримані від нормальної сукупності - ніколи не мають точно властивостей населення; тільки з цих чисел ви не маєте хорошої основи для висновку, що населення тут не нормальне.

З іншого боку, ми не маємо жодної досить твердої основи, щоб сказати, що вона "достатньо близька" до норми - ми навіть не розглядали мету припустити нормальність, тому ми не знаємо, до яких функцій розподілу вона може бути чутливою.

Наприклад, якби у мене було два зразки для обмеженого вимірювання, я знав, що він не буде сильно дискретним (здебільшого не лише декількома різними значеннями) і досить близьким до симетричного, я можу бути порівняно радий використовувати двовибірковий зразок t-тест на деякий не дуже малий розмір вибірки; це помірно міцний і легкий відхилення від припущень (дещо рівний-надійний, не настільки потужний). Але я був би значно обережніший, як причинно припускати нормальність при тестуванні рівності розвороту, наприклад, тому що найкращий тест за цим припущенням досить чутливий до припущення.

Оскільки вони знаходяться між критичними значеннями -1 та +1, ці дані вважаються нормально розподіленими ".

Якщо це дійсно той критерій, за яким хтось вирішує використовувати звичайну модель розподілу, то іноді це призведе вас до досить поганих аналізів.

Значення цих статистичних даних дають нам деякі підказки щодо населення, з якого було взято вибірку, але це зовсім не те саме, що дозволяє припустити, що їх значення в будь-якому разі є "безпечним посібником" для вибору аналізу.


Тепер вирішити основну проблему з ще кращою фразовою версією такого питання, як те, що у вас було:

Весь процес перегляду вибірки для вибору моделі загрожує проблемами - це змінює властивості будь-якого подальшого вибору аналізу на основі побаченого! наприклад, для тесту гіпотези, ваші рівні значущості, p-значення та потужність - це не те, що ви б вибрали / обчислили , оскільки ці обчислення визначаються, якщо аналіз не ґрунтується на даних.

Див., Наприклад, Гельман та Локен (2014), " Статистична криза в науці" , " Американський вчений" , Том 102, № 6, стор 460 (DOI: 10.1511 / 2014.111.460), де обговорюються проблеми такого аналізу, залежного від даних.


Привіт Пітер, вибач, що я навіть не побачив твій пост там.
Glen_b -Встановити Моніку


41

Ви пропускаєте суть і, ймовірно, також "важко", що в галузі не цінується. Вона показує вам іграшковий приклад, щоб навчити вас оцінювати нормальність набору даних, тобто сказати, чи походить набір даних від нормального розподілу . Перегляд моментів розподілу - це один із способів перевірити нормальність, наприклад, на такій оцінці базується тест Ярка Бера .

Так, нормальний розподіл ідеально симетричний. Однак, якщо ви вибираєте зразок із справжнього нормального розподілу, той, швидше за все, не буде ідеально симетричним. Це пункт, якого ви зовсім не вистачаєте. Ви можете перевірити це дуже легко самостійно. Просто генеруйте зразок з Гауссового розподілу та перевірте його момент. Вони ніколи не будуть абсолютно "нормальними", незважаючи на те, що справжній розподіл є таким.

Ось дурний приклад Python. Я генерую 100 зразків із 100 випадкових чисел, потім отримую їх засоби та медіани. Я роздруковую перший зразок, щоб показати, що середнє значення та медіану різні, потім показую гістограму різниці між засобами та медіанами. Видно, що він досить вузький, але різниця в принципі ніколи не дорівнює нулю. Зауважте, що цифри дійсно походять від звичайного розподілу .

код:

import numpy as np
import matplotlib.pyplot as plt

np.random.seed(1)
s = np.random.normal(0, 1, (100,100))
print('sample 0 mean:',np.mean(s[:,0]),'median:',np.median(s[:,0]))

plt.hist(np.mean(s,0)-np.median(s,0))
plt.show()
print('avg mean-median:',np.mean(np.mean(s,0)-np.median(s,0)))

Виходи: введіть тут опис зображення

PS

Тепер, чи слід вважати приклад вашого запитання нормальним чи ні, залежить від контексту. У контексті того, що викладали у вашій кімнаті класу, ви помиляєтесь, тому що ваш професор хотів дізнатися, чи знаєте ви тест правила великого пальця, який вона вам дала, а це те, що перекос і зайвий куртоз повинні бути від -1 до 1 дальність.

Я особисто ніколи не використовував це особливе правило (не можу це назвати тестом), і навіть не знав, що воно існує. Мабуть, деякі люди в деяких сферах все ж користуються цим. Якби ви підключали описи набору даних до тесту JB, це відкине нормальність. Отже, ви не помиляєтесь, що, звичайно, набір даних не є нормальним, але ви помиляєтесь у тому сенсі, що не вдалося застосувати очікуване від вас правило, виходячи з того, що викладали в класі.

Якби я був ти, я б ввічливо підійшов до твого професора і пояснив себе, а також показав тестові результати JB. Я б визнав, що на основі її тесту, звичайно, моя відповідь була неправильною. Якщо ви намагаєтесь сперечатися з нею так, як ви тут сперечаєтесь, ваші шанси повернути точку в тесті дуже низькі, оскільки ваші міркування слабкі щодо медіанів та засобів та зразків, це свідчить про нерозуміння зразків та популяцій. Якщо ви зміните мелодію, то у вас буде справа.


23
(+1) Точно справа. Плутанина випадкової величини та вибірка реалізацій із цієї випадкової величини.
Сіань

15
т

Чи було б справедливо сказати, що якщо ваші зразки були ідеально нормально розподілені, це є чітким свідченням того, що вибірки не є випадковими?
JimmyJames

@ JimmyJames, 4 роки тому в науці з'явився документ, який стверджує, що 20-хвилинна розмова з геєм-полотницею може змінити ваші почуття до геїв. Виявляється, автори склали свої дані опитування. Вони були занадто ледачими і генерували ідеально гауссовий шум, і ось так їх спіймали - див. Неправильності у LaCour (2014) Broockman et al.
Aksakal

@Aksakal Я не впевнений, що це точно те саме, що я прошу. У цьому випадку я думаю, що аргументом у цьому випадку було те, що реальні дані ніколи не бувають абсолютно нормальними. Я починаю з вашого твердження "Однак, якщо ви вибираєте зразок із справжнього нормального розподілу, цей зразок, швидше за все, не буде ідеально симетричним". Якщо я випадково відбираю вибірку з ідеального нормального розподілу, я не очікував би, що кожна послідовна точка даних опиниться прямо там, де це потрібно, щоб заповнити ідеальну нормальну криву. Мені це здасться дуже схожим на невипадковий процес відбору.
JimmyJames

6

Вчитель явно не відповідає своєму елементу, і, мабуть, не повинен викладати статистику. Мені здається гірше навчити щось не так, ніж взагалі цього не навчити.

Усі ці питання можна було легко усунути, якби чіткіше було зроблено розмежування між "даними" та "процесом, який виробляв дані". Дані орієнтуються на процес, який виробляв дані. Нормальний розподіл є моделлю для цього процесу.

Немає сенсу говорити про те, чи нормально поширюються дані. З однієї причини, дані завжди дискретні. З іншої причини звичайний розподіл описує нескінченність потенційно спостерігаються величин, а не скінченний набір конкретних спостережуваних величин.

Далі, відповідь на питання "це процес, який виробляв дані, як правило, розподілений процес " також завжди "ні", незалежно від даних. Дві прості причини: (i) будь-які вимірювання, які ми проводимо, обов'язково дискретні, закруглені до деякого рівня. (ii) досконала симетрія, як і ідеальне коло, не існує в спостережуваній природі. Завжди є недосконалості.

У кращому випадку відповідь на питання "що ці дані говорять вам про нормальність процесу генерування даних" можна дати наступним чином: "ці дані відповідають тому, що ми очікували б побачити, чи справді дані отримали б нормально розподілений процес. " Ця відповідь правильно не дає висновку, що розподіл є нормальним.

Ці питання дуже легко зрозуміти за допомогою моделювання. Просто моделюйте дані із звичайного розподілу та порівняйте їх із наявними. Якщо дані є підрахунками (0,1,2,3, ...), то, очевидно, нормальна модель помилкова, оскільки вона не дає чисел, таких як 0,1,2,3, ...; натомість він створює числа з десятковими колами, які продовжуються назавжди (або принаймні настільки, наскільки це дозволить комп'ютер.) Таке моделювання має бути першим, що ви робите, дізнаваючись про питання про нормальність. Тоді ви можете більш правильно інтерпретувати графіки та підсумкові статистичні дані.


10
Я не погіршував вашу відповідь, але вважаю, що ви судите професора зі слів студента. Наскільки ймовірно, що учень правий, а вчитель помиляється? Чи не є більш ймовірним, що студент неправильно представляє свого професора та контекст розмови?
Аксакал

Виходячи з мого досвіду та слів учнів, я б сказав, що більш імовірно, що вчитель помиляється. В університетах всюди є викладачі з мало офіційною підготовкою, які викладають курси, навіть курси з випускними курсами. Якби агенти з акредитації тільки знали правду!
Пітер Вестпад

6
@ Possum-Pie, я можу здогадатися, що від тебе чекає. Це, мабуть, 101-й курс у статистиці, тому ви повинні дивитися на косості та куртози. Якщо вони недостатньо близькі до 0 і 3, то ви кажете, що це не нормально. Це все. Насправді це тест JB робить більш формальним чином. Суть вправи полягає в тому, щоб ви пам’ятали, що Гауссян перекосив 0 і куртоз 3. Ви перетворюєте цю дурну, але необхідну вправу на філософську дискусію.
Аксакал

2
Коментар викладача "Оскільки вони знаходяться між критичними значеннями -1 та +1, ці дані вважаються нормально розподіленими", безумовно, або (i) відсутність розуміння або (ii) готовність викладати те, що він / він знає помилятися. Я не думаю, що це філософська дискусія під питанням готовності вчителя чи педагогічних методів.
Пітер Вестпад

3
"Послідовність" мови - це добре. Але, як зазначив Поссум-Пирі, викладачі кажуть студентам, "виходячи з цього тесту / діагностики, дані є нормальними", що є помилковим у кількох аспектах. Вчителі (психічні та інші) повинні (i) відрізняти процес генерації даних від даних, (ii) сказати студентам, що нормальна та інші моделі є моделями для процесу генерації даних, (iii) сказати їм, що нормальний розподіл завжди неправильно, як модель, незалежно від діагностики, та (iv) скажіть їм, що суть вправи полягає в діагностиці ступеня ненормативності, а не відповіді так / ні. Потім поясніть, чому це важливо.
Пітер Вестпад

4

Я інженер, тому в моєму світі прикладний статистик - це те, що я бачу найбільше, і отримую найбільш конкретне значення. Якщо ви збираєтеся працювати в застосованому, то вам потрібно бути на практиці грунтовно обґрунтованим на теорії: незалежно від того, елегантний він чи ні, літак повинен літати і не розбиватися.

Коли я замислююсь над цим питанням так, як підходжу до нього, як це робило багато моїх технічних ставок, - це думати про те, "як це виглядає в реальному світі при наявності шуму".

Друге, що я роблю, - це часто робити імітацію, яка дозволяє мені обійти питання.

Ось дуже коротке дослідження:

#show how the mean and the median  differ with respect to sample size

#libraries
library(reshape2)
library(ggplot2)

#sample sizes
ssizes <- 10^(seq(from=1, to=3, by=0.25))
ssizes <- round(ssizes)

#loops per sample
n_loops <- 5000

#pre-declare, prep for loop
my_store <- matrix(0, 
                   ncol = 3, 
                   nrow = n_loops*length(ssizes))

count <- 1

for(i in 1:length(ssizes)){

  #how many samples
  n_samp <- ssizes[i]

  for(j in 1:n_loops){

    #draw samples
    y <- 0
    y <- rnorm(n = n_samp,mean = 0, sd = 1)

    #compute mean, median, mode
    my_store[count,1] <- n_samp
    my_store[count,2] <- median(y)
    my_store[count,3] <- mean(y)


    #update
    count = count + 1
  }
}


#make data into ggplot friendly form
df <- data.frame(my_store)
names(df) <- c("n_samp", "median","mean")

df <- melt(df, id.vars = 1, measure.vars = c("median","mean"))


#make ggplot
ggplot(df, aes(x=as.factor(n_samp), 
               y = value, 
               fill = variable)) + geom_boxplot() + 
  labs(title = "Contrast Median and Mean estimate variation vs. Sample Size",
       x = "Number of Samples",
       y = "Estimated value")

Це дає це як вихід: введіть тут опис зображення

Примітка: будьте обережні щодо осі x, оскільки вона масштабована, а не рівномірною.

Я знаю, що середня і медіана точно однакові. Код говорить про це. Емпірична реалізація дуже чутлива до розміру вибірки, і якщо не існує справді нескінченних зразків, вони ніколи не можуть ідеально збігатися з теорією.

Можна подумати, чи невпевненість в медіані огинає оцінене середнє значення чи навпаки. Якщо найкраща середня оцінка знаходиться в межах 95% ІС від середньої оцінки, то дані не можуть визначити різницю. Дані говорять, що вони однакові в теорії. Якщо ви отримаєте більше даних, то подивіться, що це говорить.


1
Цікавий графік. Я б міг подумати, що середній показник був би загалом більшим, ніж медіана спочатку, враховуючи середню погоню переслідувачів ... іншими словами, червоні смуги були б середніми, а зелені - медіанами. Що я пропускаю?
Possum-Pie

1
@ Possum-Pie Пам'ятайте, що люди, що переживають люди, можуть бути в будь-якому напрямку ... нормальний розподіл має і лівий хвіст, і правий хвіст!
Срібна рибка

2
@ Будемо досить стандартною реалізацією боксплоту.
Glen_b -Встановити Моніку

1
@Glen_b Я бачив безліч підручників, які не навчають використання крапок для людей, які не працюють, тому я можу зрозуміти, що хтось до них не звик. Але, за словами Хедлі , крапки були ще тоді, коли Тукі представив свій «схематичний сюжет» у 1970 році.
Срібна рибка

1
Так, версія, яка не має іншопланетян (лише на основі підсумків 5 номерів), по суті, буде діаграмою діапазону Мері Спір (1952). (Зауважте, що у папері відсутні деякі важливі історичні попередники, що випускаються до 1952 року)
Glen_b -Встановити Моніку

4

У медичній статистиці ми лише коли-небудь коментуємо форми та уявлення розподілів. Те, що жоден дискретний кінцевий зразок ніколи не може бути нормальним, не має значення та педантичного. Я б зазначив вас неправильно за це.

Якщо розподіл виглядає "здебільшого" нормальним, нам зручно називати це нормальним. Коли я описую розподіли для нестатистичної аудиторії, мені дуже зручно називати щось приблизно нормальне, навіть коли я знаю, що нормальний розподіл не є базовою моделлю ймовірності, я розумію, що я би став назустріч вашому вчителю тут ... але ми не мають гістограми чи набору даних для підтвердження.

Як підказка, я дуже детально пройшов би наступні перевірки:

  • хто пережив, скільки і які їх цінності?
  • Чи є дані бімодальними?
  • Чи здаються, що дані мають косий вигляд, щоб деяка трансформація (як журнал) краще оцінила «відстань» між спостереженнями?
  • Чи є очевидне укорочення або нагромадження, щоб аналізи або лабораторії не змогли надійно визначити певний діапазон значень?

Здається, що в галузі з такою великою кількістю математики люди будуть більш суворі між тим, що сказати щось - це "нормальний розподіл", який має певні дуже строгі конотації, і кажучи, що це "майже нормально". Я ніколи не скажу, що 1.932 - це 2., але я можу сказати, що це майже 2.
Possum-Pie

1
"Нерелевантний і педантичний"? Серйозно? Я згоден з Possum-Pie. Я також ніколи не сказав, що 1.932 - це те саме, що і 2.0. Сказавши, що дані є "нормальними", все збиває з пантелику все, від значення нормального розподілу як моделі для процесу, який виробляв дані, до реального факту, що нормальні розподіли ніколи не точно моделюють наші процеси. Кожного слід навчити, що коли вони навчаються нормальному розподілу, щоб вони не робили дурних тверджень.
Пітер Вестфалл

2
@PeterWestfall Я думаю, що частина проблеми тут полягає в тому, що "дані надходять від нормального розповсюдження" майже ніколи не бувають буквально правдивими, і навіть якби це було правдою, це, ймовірно, було б неможливо довести остаточно. Отже, оскільки ця фраза навряд чи буде буквально правдивою, люди замість цього використовуватимуть "дані нормальні" як зручне коротке русло, щоб означати, що "дані здаються досить близькими до нормальності для практичних цілей" або "нормальний розподіл - це добре" достатня модель для нашого DGP ".
Срібна рибка

То чому б навчити того, що не так, коли так просто навчити правильному?
Пітер Вестфалл

3
@PeterW Лінгвістичний пункт стосується не лише викладання, а того, як словосполучення використовується (і призначене для його тлумачення) у повсякденному житті: "дані нормальні" майже ніколи не означає "я точно знаю, що дані для населення були вибірені, це нормально ", тому що навряд чи це могло означати. Було б приємніше, якби люди сказали, що "дані здаються нормальними" або навіть "дані виглядають нормально " (тобто здається досить близькими до нормальних, що нас не хвилює його відхилення від нормальності), але особливо в застосованих умовах люди часто скажуть такі речі.
Срібна рибка

2

Я думаю, ви з вашим професором розмовляєте в різному контексті. Рівність середнього = середня = мода - це характеристики теоретичного розподілу, і це не єдині характеристики. Не можна сказати, що якщо для будь-якого розподілу вище властивості властивості, то розподіл є нормальним. Розподіл Т також симетричний, але це не нормально. Отже, ви говорите про теоретичні властивості нормального розподілу, які завжди відповідають нормальному розподілу.

Ви, професор, говорите про поширення вибіркових даних. Він правий, ти ніколи не отримаєш даних у реальному житті, де ти знайдеш mean = median = mode. Це просто через помилку вибірки . Так само малоймовірно, ви отримаєте нульовий коефіцієнт перекосу для даних вибірки та нульовий надлишок куртозу. Ваш професор просто дає вам просте правило, щоб отримати уявлення про розподіл із вибіркової статистики. Що взагалі не вірно (без отримання додаткової інформації).


3
Професор, як кажуть, жіночий.
Нік Кокс

Чому ви не отримуєте середній = середній = режим, головним чином тому, що багато дистрибутивів справді перекошені! (Суворо, середній = середній = режим можливий і при перекошених розподілах, незважаючи на те, що кажуть у багатьох підручниках.)
Нік Кокс

1
Я не погоджуюся з відсутністю рівності середньої / медіани / режиму = помилка вибірки. Припустимо, ви випадково відібрали 52 будинки для престарілих для зниження падіння. Будинки 27, 34 та 52 є хронічно штатними і завжди мають середню кількість падінь. Ці будинки мають на увазі хвіст і не пов'язаний з помилкою вибірки.
Possum-Pie

1
@Possum Pie Що тут дані другорядні, але ви подаєте різні сигнали в різних місцях. Тут ви говорите про декілька будинків престарілих, але у своєму питанні ви зазначаєте "в будинку для престарілих". Бути незрозумілим навіть випадкові деталі не допомагає.
Нік Кокс

@ Nick Cox Вибачте, я уточнив це. Кількість падінь / рік у вибірці з 52 будинків престарілих
Possum-Pie

1

Для практичних цілей основні процеси, такі як цей, зазвичай тонко наближаються до нормального розподілу, не піднімаючи брови.

Однак, якщо ви хотіли бути педантичними, базовий процес у цьому випадку не може бути нормально розподілений, оскільки він не може створити негативні значення (кількість падінь не може бути негативною). Я не був би здивований, якби насправді це був принаймні бімодальний розподіл із другим піком, близьким до нуля.


Це бімодальний режим з режимами 4 падіння та 13 падінь. Не повідомляється про нульові падіння.
Possum-Pie
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.