Мене вражає, здавалося б, проста проблема, але я вже кілька тижнів не знайшов підходящого рішення.
У мене є досить багато даних опитування / опитування (десятки тисяч респондентів, скажімо, 50 тис. На набір даних), що випливає з чогось, на що я сподіваюся, називається складно розробленим опитуванням з вагою, стратифікацією, специфічною маршрутизацією тощо. Для кожного респондента існують сотні змінних, таких як демографічні (вік, регіон ...), а потім здебільшого бінарні (щонайбільше категоричні) змінні.
Я більше берусь за основу інформатики / машинного навчання, і мені довелося багато дізнатися про класичну статистику опитування та методологію. Тепер я хочу застосувати класичне машинне навчання до цих даних (наприклад, передбачення деяких відсутніх значень для підмножини респондентів - в основному завдання класифікації). Але, тримайте і ось, я не можу знайти відповідний спосіб, як це зробити. Як я повинен включати ці страти, ваги або маршрутизацію (наприклад: якщо на питання 1 відповіли варіант 2, задайте питання 3, інакше пропустіть)?
Просте застосування моїх моделей (дерева, логістична регресія, SVM, XGBoost ...) здається небезпечним (і, в більшості випадків вони не вдається), оскільки вони зазвичай припускають, що дані надходять із простого випадкового зразка або iid.
Багато методів принаймні мають вагу, але це не дуже допомагає. Крім того, незрозуміло, як я повинен поєднувати незбалансовані класи та ваги, задані визначенням опитування, не кажучи про ці стратифікаційні матеріали. Крім того, результати результатів повинні бути добре відкалібровані - прогнозований розподіл повинен бути дуже близьким до вихідного. Хороший показник прогнозування - не єдиний критерій. Я змінив показник оптимізації, щоб врахувати і це (наприклад, відстань передбачуваного розподілу від справжнього розподілу + точність / MCC), і це допомогло в деяких випадках, чому калічить ефективність в інших.
Чи є якийсь канонічний спосіб, як вирішити цю проблему? Це здається для мене сильно недооціненою сферою досліджень. Багато опитувань ІМО могли б отримати користь від МЛ, але джерел немає. Як і ці два світи, які не взаємодіють один з одним.
Що я знайшов поки що:
- http://civilstat.com/2014/08/statistic-modeling-the-two-cultures-breiman/
Наприклад, я все ще знаю лише одну статтю (Toth & Eltinge, 2011) про те, як зробити дерева регресії, коли ваші дані надходять із складного вибіркового опитування.
- http://ccsg.isr.umich.edu/index.php/chapters/statistic-analysis-chapter#nine
В недавньому метааналізі 150 вибіркових дослідницьких робіт, що аналізували декілька опитувань із складною схемою вибірки, було виявлено, що аналітичні помилки, спричинені незнанням або неправильним використанням складних особливостей вибіркової конструкції, були частими.
- https://www.fhwa.dot.gov/2015datapalooza/presentations/PolicyDev.4_Pierce.pdf
Питання, пов’язані з резюме, пов'язані з резюме, але жодне з них не містить корисної відповіді, як підходити до цього (або немає відповіді, не того, про що я прошу, або представляю оманливі рекомендації):