Перевірка статистично значущого піку


14

У мене є набір даних, і . Я хотів би перевірити таку гіпотезу: У є пік ; тобто x збільшується, y спочатку збільшується, а потім зменшується.yxyxy

Першою моєю ідеєю було встановлення і в дзеркальній камері. Тобто, якщо я знаходжу, що коефіцієнт перед суттєво позитивний, а коефіцієнт перед суттєво негативний, то я маю підтримку гіпотези. Однак це перевіряє лише один тип відносин (квадратичний) і може не обов'язково фіксувати існування піку.xx2xx2

Тоді я подумав знайти , таку область (відсортованих значень) , що знаходиться між і , дві інші області що містять принаймні стільки точок, як , і що та значно. Якщо гіпотеза вірна, слід очікувати багатьох таких регіонів . Таким чином, якщо кількість b є достатньо великою, гіпотеза повинна бути підтримкою.bxbacxbyb¯>ya¯yb¯>yc¯bb

Ви вважаєте, що я на правильному шляху, щоб знайти підходящий тест для своєї гіпотези? Або я вигадую колесо і є усталений метод для цієї проблеми? Я буду дуже вдячний за ваш внесок.

ОНОВЛЕННЯ. Моя залежна змінна - кількість (негативне ціле число).y


Чи змінюється плавно від ? Якщо так, ви можете спробувати встановити модель, що включає плавнішу (скажімо, GAM), а потім обчислити перші похідні встановленого плавнішого та їх інтервал довіри. Якщо похідне значення означає, то значення зменшується, ви маєте відповідь. хyx
Відновіть Моніку - Г. Сімпсон,

Відповіді:


6

Я думав і про ідею згладжування. Але є ціла область, яка називається методологією поверхні відповіді, яка шукає піки в галасливих даних (це, в першу чергу, передбачає використання локальних квадратичних припадків до даних), і в назві був відомий документ, який я згадую під назвою "Полювання на удари". Ось декілька посилань на книги з методології поверхні відповідей. Книги Рея Майєра особливо добре написані. Я спробую знайти папір для полювання на шишку.

Методологія поверхневої реакції: оптимізація процесів та продуктів за допомогою розроблених експериментів

Методика поверхні відповіді та супутні теми

Методологія поверхні відповідей

Емпірична поверхня побудови моделі та реагування

Хоча не та стаття, яку я шукав, ось ця дуже актуальна стаття Джеррі Фрідмана та Ніка Фішера, яка стосується цих ідей, застосованих до об'ємних даних.

Ось стаття з деякими онлайн-коментарями.

Тож сподіваюся, ви принаймні оціните мою відповідь. Я думаю, що ваші ідеї хороші і на правильному шляху, але так, я думаю, ви можете винаходити колесо, і я сподіваюся, що ви та інші поглянете на ці чудові посилання.


3
Я не входив до числа перешкод, але очікується, що відповіді на веб-сайтах SE будуть більше ніж посилання на зміст. Узагальнення вмісту або надання короткої відповіді, а потім посилання на вміст для отримання детальної інформації було б краще.
Відновіть Моніку - Г. Сімпсон,

2
Я підтримую цю заяву, оскільки (1) вона є гарною ідеєю; (2) він має деякі коментарі; та (3) він підтримується деякими ретельно підібраними посиланнями, у тому числі до вільно доступних матеріалів. Так, це виглядає типографічно погано, тому що посилання можуть бути більш вдало відформатовані: але я сподіваюся, що люди не зважують цей аспект відповідей у ​​своїх рішеннях про голосування!
whuber

1
@whuber Я погоджуюся, після того, як я міг чітко її прочитати через приємне форматування Procastinator. Також +1. Я думаю, що тут достатньо резюме, і деякі теми майже занадто складні для чогось більшого, ніж основна ідея та посилання для подальшого читання.
Ерік

5
@MichaelChernick Зауважте, що це не було критикою з боку мене, а лише пропонувало причину, чому люди могли б проголосувати. Я б не погоджувався з ними, якби це було причиною, тому що я вважаю, що ваша відповідь на місці, особливо з PRIM; Я просто консультувався з моїм Hastie et al (2009) щодо того, що було сказано на PRIM. Ви можете додати це посилання до відповіді, оскільки там є два розділи про PRIM, і PDF доступний безкоштовно.
Відновіть Моніку - Г. Сімпсон,

1
@Nikita Яка формальна статистична гіпотеза, яку ви хочете перевірити? Спочатку ви повинні знайти вершини, які є важливою частиною цього. Ви перевіряєте, що пік не є лише результатом шуму? Я не впевнений, яка література є для вирішення цієї проблеми, але я вважаю, що ти можеш прилаштувати поліноміальну регресію до даних (можливо, квадратичної локально). З цього ви мали б оцінку залишкової дисперсії. Статистичне значення квадратичного терміна було б тестом на значущість піку.
Майкл Р. Черник

1

Незважаючи на те, що ви не відповіли на моє запитання, якщо я гадаю, що ви правильні, ви шукаєте тест білого шуму, який у частотній області дорівнює, що спектр є рівним. Таким чином, може бути використаний періодограмний тест Фішера, який у даному посиланні називається фішкою Фішера. Дивіться посилання.

http://www4.stat.ncsu.edu/~dickey/Spain/pdf_Notes/Spectral2.pdf

Тест Бартлетта також згадується в посиланні. Тепер відкидання нульової гіпотези означає значущий пік періодограми. Це означатиме, що періодичний компонент існує у часовому ряді.

Оскільки тест знаходиться в частотній області і включає ординати періодограми, ординати мають розподіл chi 2 в рамках нульової гіпотези і є незалежними. Цей особливий розподіл відбувається лише через перетворення в частотну область. Якби час x, це не працювало б у часовій області або взагалі розподіл для ys не було б незалежним квадратом чі.

m


y

Отже, y - це підрахунок даних і що таке xa суцільна пояснювальна змінна? Мої попередні пропозиції, мабуть, не в цьому випадку, але є багато недавньої літератури про моделі підрахунку. Тож якщо ви можете бути трохи більш конкретними щодо даних та проблеми, можливо, я можу вказати на рішення.
Майкл Р. Черник

yx

Я не впевнений, чи допоможе це чи ні, але Камерон і Триведі опублікували книгу про регресійні моделі підрахунку і вийшло друге видання у 2013 році. Ось посилання з деякою інформацією: cameron.econ.ucdavis.edu/racd/count .html
Майкл Р. Черник
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.