Я дуже вдячний за вашу пораду щодо наступної проблеми:
У мене є великий безперервний набір даних з безліччю нулів (~ 95%), і мені потрібно знайти найкращий спосіб перевірити, чи є певні підмножини його "цікавими", тобто, здається, не виведені з того ж розподілу, що і решта. Нульова інфляція походить від того, що кожна точка даних базується на вимірюванні підрахунку як істинних, так і вибіркових нулів, але результат є безперервним, оскільки враховує деякі інші параметри, зважені підрахунком (і так, якщо підрахунок дорівнює нулю, результат також дорівнює нулю).
Який був би найкращий спосіб зробити це? У мене таке відчуття, що тести на перестановку Вілкоксона і навіть грубої сили є недостатньою, оскільки вони перекошуються цими нулями. Орієнтація на ненульові вимірювання також видаляє справжні нулі, які є надзвичайно важливими. Нулево завищені моделі для підрахунку даних добре розвинені, але непридатні для мого випадку.
Я розглядав можливість встановлення розподілу Tweedie до даних, а потім встановлення glm на відповідь = f (subset_label). Теоретично це здається здійсненним, але мені цікаво, чи (а) це надмірність і (б) все одно неявно припускатимуть, що всі нулі є зразковими нулями, тобто були б зміщені таким же чином (у кращому випадку) як перестановка?
Інтуїтивно це звучить як би є якась ієрархічна конструкція, яка поєднує двочленну статистику на основі частки нулів і, скажімо, статистику Вілкоксона, обчислену на ненульових значеннях (або, ще краще, ненульові значення, доповнені часткою нулі на основі деяких попередніх). Звучить як байєсівська мережа ...
Сподіваюсь, я не перший, хто має цю проблему, тому буду дуже вдячний, якби ви могли вказати мені на відповідні існуючі методи ...
Дуже дякую!