Зустрічаються два світи: використання МЛ для складних даних опитування


14

Мене вражає, здавалося б, проста проблема, але я вже кілька тижнів не знайшов підходящого рішення.

У мене є досить багато даних опитування / опитування (десятки тисяч респондентів, скажімо, 50 тис. На набір даних), що випливає з чогось, на що я сподіваюся, називається складно розробленим опитуванням з вагою, стратифікацією, специфічною маршрутизацією тощо. Для кожного респондента існують сотні змінних, таких як демографічні (вік, регіон ...), а потім здебільшого бінарні (щонайбільше категоричні) змінні.

Я більше берусь за основу інформатики / машинного навчання, і мені довелося багато дізнатися про класичну статистику опитування та методологію. Тепер я хочу застосувати класичне машинне навчання до цих даних (наприклад, передбачення деяких відсутніх значень для підмножини респондентів - в основному завдання класифікації). Але, тримайте і ось, я не можу знайти відповідний спосіб, як це зробити. Як я повинен включати ці страти, ваги або маршрутизацію (наприклад: якщо на питання 1 відповіли варіант 2, задайте питання 3, інакше пропустіть)?

Просте застосування моїх моделей (дерева, логістична регресія, SVM, XGBoost ...) здається небезпечним (і, в більшості випадків вони не вдається), оскільки вони зазвичай припускають, що дані надходять із простого випадкового зразка або iid.

Багато методів принаймні мають вагу, але це не дуже допомагає. Крім того, незрозуміло, як я повинен поєднувати незбалансовані класи та ваги, задані визначенням опитування, не кажучи про ці стратифікаційні матеріали. Крім того, результати результатів повинні бути добре відкалібровані - прогнозований розподіл повинен бути дуже близьким до вихідного. Хороший показник прогнозування - не єдиний критерій. Я змінив показник оптимізації, щоб врахувати і це (наприклад, відстань передбачуваного розподілу від справжнього розподілу + точність / MCC), і це допомогло в деяких випадках, чому калічить ефективність в інших.

Чи є якийсь канонічний спосіб, як вирішити цю проблему? Це здається для мене сильно недооціненою сферою досліджень. Багато опитувань ІМО могли б отримати користь від МЛ, але джерел немає. Як і ці два світи, які не взаємодіють один з одним.

Що я знайшов поки що:

Питання, пов’язані з резюме, пов'язані з резюме, але жодне з них не містить корисної відповіді, як підходити до цього (або немає відповіді, не того, про що я прошу, або представляю оманливі рекомендації):


Чи можете ви, будь ласка, визначити, що ви маєте на увазі під " невдалою в більшості випадків "? Як ви судите про успіх моделі в цій нинішній обстановці?
usεr11852 повідомляє Відновити Моніку

Вони навіть не близькі до оригінального розподілу або здається безглуздим їх запуск (наприклад, коли включена маршрутизація).
kotrfa

Відповіді:


3

( Оновлення: над «сучасними» методами МЛ ще не дуже багато роботи зі складними даними опитування, але в останньому випуску статистичної науки є пара оглядових статей. Див. Особливо Брейдта та Опсомера (2017), «Модель, що допомагає Оцінка опитування за допомогою сучасних методів прогнозування " .

Крім того, на підставі згаданого вами документа Toth і Eltinge тепер існує rpms пакет R, що реалізує CART для даних комплексного опитування.)

Тепер я хочу застосувати класичне машинне навчання до цих даних (наприклад, передбачення деяких відсутніх значень для підмножини респондентів - в основному завдання класифікації).

Мені не зовсім зрозуміло твоя мета. Ви в першу чергу намагаєтесь вписати пропущені спостереження, просто щоб мати "повний" набір даних, щоб дати комусь іншому? Або у вас вже є повні дані, і ви хочете побудувати модель для прогнозування / класифікації нових відповідей спостережень? Чи є у вас конкретні запитання, на які потрібно відповісти з вашими моделями (моделями), або ви обмінюєтеся даними більш широко?

У будь-якому випадку логістична регресія комплексного зразка-опитування / зваженого на опитування є розумним, досить добре зрозумілим методом. Існує також порядкова регресія для більш ніж 2 категорій. Вони враховуватимуть страти та обстежувальні ваги. Вам потрібен більш химерний метод ML, ніж цей?

Наприклад, ви можете використовувати svyglmв surveyпакеті R. Навіть якщо ви не використовуєте R, автор пакету, Томас Лумлі, також написав корисну книгу "Комплексні опитування: Посібник з аналізу за допомогою R", яка охоплює як логістичну регресію, так і відсутні дані для опитування.

(Для сподівання, я сподіваюся, що ви вже знайомі із загальними проблемами щодо відсутніх даних. Якщо ні, перегляньте підходи, такі як багаторазова імпутація, щоб допомогти вам скласти облік того, як крок внесення впливає на ваші оцінки / прогнози.)

Маршрутизація питань - це справді додаткова проблема. Я не впевнений, як найкраще з цим боротися. Для імпутації, можливо, ви можете ввести один "крок" в маршрутизації за один раз. Наприклад, використовуючи глобальну модель, спочатку впишіть відповідь кожного на те, «скільки у вас дітей?»; потім запустіть нову модель для відповідної підгрупи (люди, у яких більше 0 дітей), щоб замінити наступний крок "Скільки років вашим дітям?"

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.