"Всі ці точки даних походять з одного розподілу". Як перевірити?


16

Я відчуваю, що я бачив цю тему, яку обговорювали тут раніше, але не зміг знайти нічого конкретного. Потім знову я також не дуже впевнений, що шукати.

У мене є одномірний набір упорядкованих даних. Я гіпотезую, що всі точки в множині виведені з одного розподілу.

Як я можу перевірити цю гіпотезу? Чи доцільно перевірити загальну альтернативу "спостереження в цьому наборі даних виведені з двох різних розподілів"?

В ідеалі я хотів би визначити, які пункти походять від "іншого" розподілу. Оскільки мої дані впорядковані, чи можу я піти з визначення точки розрізу, перевіривши якось те, чи "допустимо" скоротити дані?

Редагувати: відповідно до відповіді Glen_b, мене зацікавили б суто позитивні, одномодальні розподіли. Мене також зацікавив би особливий випадок припущення розподілу та тестування на різні параметри .


Що ви маєте на увазі під тим самим розподілом? Чи вважаються спостереження Гамми такими ж розподілами, або вони вважаються сумою експоненціальних розподілів?
Менаріат

+1 це дуже гарне запитання, яке ви можете задати собі.
користувач541686

@Metallica, якщо кожне спостереження є експоненціальною сумою, я б сказав, що вони з одного розподілу
shadowtalker

@Mehrdad Я не маю офіційного навчання статистиці за межами моєї магістратури та кількох різних класів у своїх магістрів Якщо ви подивитесь на історію моїх відповідей, то зрозуміло, що я знаю багато про лінійну регресію і не багато про що-небудь інше 🤐
shadowtalker

2
Одним із можливих способів підходу до цього питання є розгляд скінченної суміші, наприклад, деякого класу розподілів і перевірити, чи потрібно вам більше 1 компонента суміші, щоб добре описати ваші дані. Однак питання полягає в тому, чи існує клас розподілів, який є достатньо гнучким для опису вашої "нульової гіпотези" окремим компонентом суміші (наприклад, якщо ви використовуєте скінчену суміш гамма-розподілів, вони можуть бути не гнучкими з точки зору спотвореності чи хвоста. поведінку залежно від того, що ви намагаєтесь зробити), в той час як містить потенційну альтернативу як багатокомпонентну суміш.
Бьорн

Відповіді:


29

Уявіть два сценарії:

  1. всі точки даних були виведені з одного розподілу - того, що було рівномірним (16,36)

  2. Точки даних були отримані з 50-50 сумішей двох груп:

    а. популяція A, яка має форму:

введіть тут опис зображення

б. популяція B, що має форму:

введіть тут опис зображення

... таке, що суміш цих двох виглядає точно так, як справа в 1.

Як їх можна було сказати окремо?

Незалежно від форми, яку ви обираєте для двох груп населення, завжди буде єдиний розподіл населення, який має однакову форму. Цей аргумент наочно демонструє, що для загального випадку ви просто не можете цього зробити. Немає можливого способу розмежування.

Якщо ви вводите інформацію про сукупність (припущення, ефективно), часто можуть існувати способи продовження *, але загальний випадок загинув.

* наприклад, якщо ви припускаєте, що популяції є одномодовими та мають досить різні засоби, ви можете кудись дістатися

[Там обмежень, які були додані до питання, недостатньо, щоб уникнути іншої версії виду проблеми, яку я описав вище - ми все одно можемо записати одномодальний нуль на позитивній половині у вигляді суміші 50-50 двох одномодових розподілів. на позитивній половині. Звичайно, якщо у вас є більш конкретна нуль, це стає набагато меншим питанням. Крім того, все ж слід мати можливість обмежувати клас альтернатив, поки ми не змогли перевірити якусь альтернативу суміші. Або деякі додаткові обмеження можуть бути застосовані як до нульових, так і до альтернативних, які роблять їх помітними.


1
Дякую, чудовий контрприклад. Тож зводиться до відповідного обмеження альтернативної гіпотези, правильно?
shadowtalker

@ssdecontrol так, по суті; якщо (зважаючи на припущення) альтернативу можна відрізнити від нульової, у вас є надія на тест з потужністю, що перевищує ваш рівень значущості.
Glen_b -Встановіть Моніку

0

Вам, очевидно, потрібно мати певну теорію, щоб поговорити про розподіл (-и) та гіпотези стану, щоб перевірити. Щось, що групує суб'єктів в одну або кілька груп, і те, що робить вимірювання, щоб розкласти.

Як можна туди потрапити? Я бачу три варіанти:

  • Якщо ви вже знаєте це з вашого предмету, то вам просто потрібно перекласти це мовою статистичної гіпотези
  • Складіть графіки та розпізнайте шаблони, щоб стати гіпотезами для перевірки
  • Придумайте список дистрибутивів, до яких можна підходити, і зробіть математичний експеримент. Імовірнісне програмування тут є ключовим словом

Після цього вправа дозволить зробити висновок про те, що у вашій вибірці представлена ​​одна або кілька груп, або лише одна. Або взагалі немає групи.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.