Проблема вашої дискусії з професором - це термінологія, є непорозуміння, яке перешкоджає передачі потенційно корисної ідеї. У різних місцях ви обоє робите помилки.
Тож перше, що слід звернути увагу: важливо бути досить зрозумілим, що таке розподіл .
Нормальний розподіл - це специфічний математичний об'єкт, який можна розглянути як модель для нескінченної сукупності значень. (Жодне обмежене населення насправді не може мати постійний розподіл.)
Неодмінно те, що робить цей розподіл (як тільки ви задаєте параметри), визначає (за допомогою алгебраїчного виразу) частку значень сукупності, яка лежить в будь-якому заданому інтервалі на реальній лінії. Трохи менш вільно він визначає ймовірність того, що одне значення з цієї сукупності буде лежати в будь-який даний інтервал.
Спостережуваний зразок насправді не має нормального розподілу; зразок (потенційно) може бути взятий з звичайного розподілу, якби воно існувало. Якщо ви подивитеся на емпіричний cdf зразка, він дискретний. Якщо бін (як в гістограмі), зразок має "розподіл частоти", але це не нормальні розподіли. Розподіл може розповісти нам про деякі випадки (у ймовірнісному розумінні) про випадкову вибірку з популяції, а вибірка може також розповісти нам про речі.
Розумна інтерпретація фрази на зразок "нормально розподілений зразок" * є "випадковою вибіркою з нормально розподіленої сукупності".
* (Я, як правило, намагаюся уникати того, щоб сказати це сам, з тих причин, які, сподіваюся, досить зрозумілі тут; зазвичай мені вдається обмежитися другим висловом.)
Визначивши терміни (якщо ще трохи вільно), давайте тепер детально розглянемо питання. Я торкнуся конкретних запитань.
нормальний розподіл повинен мати середнє = середній = режим
Це, безумовно, умова нормального розподілу ймовірностей, хоча не є вимогою до вибірки, взятої з нормального розподілу; зразки можуть бути асиметричними, можуть мати середню різницю від медіани тощо. [Однак ми можемо отримати уявлення про те, наскільки далеко ми можемо з розумом розраховувати, що вибірки дійсно отримають від нормальної сукупності.]
всі дані повинні міститися під кривою дзвону
Я не впевнений, що в цьому сенсі означає "міститься під".
і ідеально симетричні навколо середнього.
Ні; Ви говорите про дані тут, і вибірка (звичайно симетричної) нормальної сукупності сама по собі не була б ідеально симетричною.
Тому технічно практично немає нормальних розподілів у реальних дослідженнях,
Я згоден з вашим висновком, але міркування невірні; це не наслідок того, що дані не є ідеально симетричними (тощо); справа в тому, що популяції самі по собі не є абсолютно нормальними .
якщо перекос / куртоз менше 1,0, це нормальний розподіл
Якщо вона сказала це саме так, вона напевно помиляється.
Скісність вибірки може бути набагато ближчою до 0 (ніж "менше" означає абсолютну величину, а не фактичну величину), а надлишковий куртоз зразка також може бути набагато ближче до 0 (ніж вони можуть бути навіть випадково чи конструкція, потенційно може бути майже точно нульовою), і все ж розподіл, з якого було взято зразок, може бути явно ненормативним.
Ми можемо піти далі - навіть якби ми магічно знали, що косоокість населення та куртоз були абсолютно нормальними, це все одно само по собі не скаже нам, що населення нормальне, навіть навіть щось близьке до нормального.
Набір даних - це загальна кількість падінь / рік у випадковій вибірці 52 будинків престарілих, що є випадковою вибіркою більшої кількості населення.
Розподіл чисельності населення ніколи не буває нормальним. Підрахунки - це дискретні та негативні, нормальні розподіли - безперервні та по всій реальній лінії.
Але ми дійсно зосереджені на неправильній проблемі тут. Моделі ймовірності - це саме це, моделі . Не будемо плутати наші моделі з реальними .
Проблема не в тому, "чи самі дані є нормальними?" (вони не можуть бути), а також "чи нормальна кількість населення, з якого отримані дані?" (це майже ніколи не буде).
Більш корисним питанням для обговорення є "наскільки погано вплине моє висновок, якби я ставився до населення як до нормального розподілу?"
На це також відповісти набагато складніше, і це може зажадати значно більше роботи, ніж огляд декількох простих діагнозів.
Вибірна статистика, яку ви показали, не особливо суперечить нормальності (ви можете бачити подібні статистичні дані або "гірше" не дуже рідко, якщо у вас були випадкові вибірки такого розміру з нормальної сукупності), але це само по собі не означає, що фактична кількість населення з якого взяли зразок, автоматично «досить близько» до нормальної для певної мети. Важливо було б врахувати мету (на які запитання ви відповідаєте) та надійність застосованих для цього методів, і навіть тоді ми все ще не можемо бути впевнені, що це "досить добре"; іноді може бути краще просто не припускати, що у нас немає вагомих причин вважати апріорі (наприклад, на основі досвіду подібних наборів даних).
це НЕ нормальний розподіл
Дані - навіть дані, отримані від нормальної сукупності - ніколи не мають точно властивостей населення; тільки з цих чисел ви не маєте хорошої основи для висновку, що населення тут не нормальне.
З іншого боку, ми не маємо жодної досить твердої основи, щоб сказати, що вона "достатньо близька" до норми - ми навіть не розглядали мету припустити нормальність, тому ми не знаємо, до яких функцій розподілу вона може бути чутливою.
Наприклад, якби у мене було два зразки для обмеженого вимірювання, я знав, що він не буде сильно дискретним (здебільшого не лише декількома різними значеннями) і досить близьким до симетричного, я можу бути порівняно радий використовувати двовибірковий зразок t-тест на деякий не дуже малий розмір вибірки; це помірно міцний і легкий відхилення від припущень (дещо рівний-надійний, не настільки потужний). Але я був би значно обережніший, як причинно припускати нормальність при тестуванні рівності розвороту, наприклад, тому що найкращий тест за цим припущенням досить чутливий до припущення.
Оскільки вони знаходяться між критичними значеннями -1 та +1, ці дані вважаються нормально розподіленими ".
Якщо це дійсно той критерій, за яким хтось вирішує використовувати звичайну модель розподілу, то іноді це призведе вас до досить поганих аналізів.
Значення цих статистичних даних дають нам деякі підказки щодо населення, з якого було взято вибірку, але це зовсім не те саме, що дозволяє припустити, що їх значення в будь-якому разі є "безпечним посібником" для вибору аналізу.
Тепер вирішити основну проблему з ще кращою фразовою версією такого питання, як те, що у вас було:
Весь процес перегляду вибірки для вибору моделі загрожує проблемами - це змінює властивості будь-якого подальшого вибору аналізу на основі побаченого! наприклад, для тесту гіпотези, ваші рівні значущості, p-значення та потужність - це не те, що ви б вибрали / обчислили , оскільки ці обчислення визначаються, якщо аналіз не ґрунтується на даних.
Див., Наприклад, Гельман та Локен (2014), " Статистична криза в науці" , " Американський вчений" , Том 102, № 6, стор 460 (DOI: 10.1511 / 2014.111.460), де обговорюються проблеми такого аналізу, залежного від даних.