Тестування гіпотез на безперервно завищених нульових даних


10

Я дуже вдячний за вашу пораду щодо наступної проблеми:

У мене є великий безперервний набір даних з безліччю нулів (~ 95%), і мені потрібно знайти найкращий спосіб перевірити, чи є певні підмножини його "цікавими", тобто, здається, не виведені з того ж розподілу, що і решта. Нульова інфляція походить від того, що кожна точка даних базується на вимірюванні підрахунку як істинних, так і вибіркових нулів, але результат є безперервним, оскільки враховує деякі інші параметри, зважені підрахунком (і так, якщо підрахунок дорівнює нулю, результат також дорівнює нулю).

Який був би найкращий спосіб зробити це? У мене таке відчуття, що тести на перестановку Вілкоксона і навіть грубої сили є недостатньою, оскільки вони перекошуються цими нулями. Орієнтація на ненульові вимірювання також видаляє справжні нулі, які є надзвичайно важливими. Нулево завищені моделі для підрахунку даних добре розвинені, але непридатні для мого випадку.

Я розглядав можливість встановлення розподілу Tweedie до даних, а потім встановлення glm на відповідь = f (subset_label). Теоретично це здається здійсненним, але мені цікаво, чи (а) це надмірність і (б) все одно неявно припускатимуть, що всі нулі є зразковими нулями, тобто були б зміщені таким же чином (у кращому випадку) як перестановка?

Інтуїтивно це звучить як би є якась ієрархічна конструкція, яка поєднує двочленну статистику на основі частки нулів і, скажімо, статистику Вілкоксона, обчислену на ненульових значеннях (або, ще краще, ненульові значення, доповнені часткою нулі на основі деяких попередніх). Звучить як байєсівська мережа ...

Сподіваюсь, я не перший, хто має цю проблему, тому буду дуже вдячний, якби ви могли вказати мені на відповідні існуючі методи ...

Дуже дякую!


Оновлення. Поки я знайшов цю статтю, яка стосується проблеми, подібної моїй: maths.otago.ac.nz/home/downloads/david_fletcher/…
a11msp

Мені цікаво, чи мало б це надзвичайно спрощене наближення сенс, враховуючи, що нулі утворюють абсолютну більшість: 1) знайти частку нулів у кожному підмножині. 2) припустимо, що в підмножині з найменшою кількістю нулів всі нулі істинні. 3) з кожної підмножини вийміть частку нулів, рівну частці нулів у найбільш наборі даних з нульовим рівнем. 4) запустити стандартну непараметричну статистику на цьому модифікованому наборі даних.
a11msp

Гіперпосилання на папір у вашому першому коментарі видається мертвим. Чи можете ви надати цитування замість цього?
копія

1
Дякуємо, що вказали на
a11msp

Відповіді:


9

@msp, я думаю, ви дивитесь на двоступеневу модель у цьому вкладенні (я не встиг її прочитати), але нульові завищені безперервні дані - це тип, з яким я багато працюю. Щоб пристосувати параметричну модель до цих даних (щоб дозволити випробування гіпотез), ви можете встановити дві ступені, але тоді у вас є дві моделі (Y - ціль, а X - коваріати): P (Y = 0 | X) і P (Y | X; Y> 0). Ви повинні використовувати імітацію, щоб "об'єднати" їх разом. Книга Gelmans (і пакет руки в R) показує цей процес для цієї точної моделі (використовуючи логістичну регресію та звичайну лінійну регресію з посиланням на журнал).

Інший варіант, який я бачив і мені подобається краще, - це встановити нульову завищену гамма-регресію, яка є такою ж, як і вище (але гамма як помилка замість гаассіанської), і ви можете об'єднати їх для тестів гіпотез на P (Y | X) . Я не знаю, як це зробити в R, але ви можете в SAS NLMIXED. Дивіться цю публікацію , вона працює добре.


@B_Miner, дуже дякую за вашу відповідь, вибачте, не вистачає рейтингу, щоб проголосувати за тебе ... Я перегляну посилання! Мене єдине хвилювання щодо умовних моделей полягає в тому, що вони постулюють, що нулі не можуть належати до другого (безперервного) компонента, я прав? Чи не моє налаштування трохи більше схоже на модель суміші? Як ти гадаєш?
a11msp

Зараз я повторив двоступеневий підхід, запропонований у книзі Гельмана. Якщо subset_factor (з 25 рівнями) служить міткою підмножини, першим кроком є ​​fit1 = glm (відповідь ~ підмножина_фактор, сімейство = двочлен); а другий крок - fit2 = lm (відповідь ~ підмножина_фактор, підмножина = відповідь> 0). Потім я можу запустити моделювання, як вони описують, щоб отримати розподіл пристосованих значень відповіді для кожного рівня факторів. Однак я все ще не впевнений, як перевести це на те, що мені потрібно, а саме: (а) ймовірність того, що коефіцієнти не дорівнюють нулю, і (б) значення різниці між коефіцієнтами на різних рівнях факторів.
a11msp

Двоступеневий підхід (метод Гельмана у двох окремих моделях) передбачає дві групи населення - нульову та вище.
B_Miner

... тож було б доречно просто сказати, що якщо вплив якогось факторного рівня є значним (і суттєво відрізняється від впливу якогось іншого факторного рівня) в будь-якій з двох моделей методу Гельмана, то це загалом суттєво?
a11msp

1
Так, двоступеневий підхід (метод Гельмана у двох окремих моделях) передбачає дві групи: ті, що мають нуль, і ті, що> 0. Щодо тестів гіпотези, чи можете ви їх опрацювати з точки зору прогнозованих значень для різних рівнів вхідних даних та побудувати емпіричне довірчі інтервали, пов'язані з моделюванням для кожного? Для тестів гіпотез щодо коефіцієнта! = 0, вам потрібно перевірити це окремо для обох моделей.
B_Miner

2

Аналогічний підхід до статті Fletcher використовується в маркетинговому тестуванні, де ми можемо довільно розділити наслідки втручань (наприклад, реклами) на (a) зміну кількості покупців марки (тобто пропорцію нулів) та (b) a зміна частоти купівлі групи (продажі за даними продажу взагалі відбуваються). Це твердий підхід і концептуально значущий у маркетинговому контексті та в екологічному контексті, який обговорює Флетчер. Насправді це може бути розширено до (в) зміни розміру кожної покупки.


Дякую! Мені цікаво, чи вам відомо про існуючу реалізацію цього?
a11msp

1

Ви можете обробити точну кількість нулів, невідомих, але обмежених між 0 та спостереженою кількістю нулів. З цим, безумовно, можна впоратися, використовуючи байєсівську формулювання моделі. Можливо, кілька методів імпутації також можуть бути налаштовані для відповідного зміни ваг (між 0 і 1) нульових спостережень ...

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.