Що можна сказати про моделі даних спостережень за відсутності інструментів?


10

У минулому мені було задано ряд питань, що стосуються опублікованих праць у ряді областей, де регресії (і пов'язані з ними моделі, такі як моделі панелей або GLM) використовуються для даних спостережень (тобто даних, не отриманих контрольованим експериментом , у багатьох випадках - але не завжди - дані, які спостерігаються з часом), але там, де не робиться спроба ввести інструментальні змінні.

У відповідь я висловив ряд закидів (наприклад, описуючи проблеми з упередженням, коли важливі змінні можуть бути відсутніми), але оскільки інші люди, без сумніву, будуть набагато більш обізнаними, ніж я, на цю тему, я подумав, що прошу:

  1. Які основні питання / наслідки намагаються дійти висновків щодо стосунків (особливо, але не обмежуючись причинними висновками) у таких ситуаціях?

  2. Чи можна щось корисне зробити з дослідженнями, які відповідають таким моделям за відсутності інструментів?

  3. Які хороші довідки (книги чи статті) щодо питань такого моделювання (бажано, з чіткою нетехнічною мотивацією наслідків, оскільки зазвичай люди, які запитують, мають різноманітні передумови, деякі без особливих статистичних даних), на які люди можуть звертатися у критиці. папір? Обговорення запобіжних заходів / проблем із інструментами також було б корисним.

(Основні посилання на інструментальні змінні є тут , хоча, якщо ви щось там можете додати, це також буде корисним.)

Показники хороших практичних прикладів пошуку та використання інструментів були б бонусом, але не є головним у цьому питанні.

[Я, швидше за все, вкажу на інших хороші відповіді, оскільки такі питання до мене приходять. Я можу додати один або два приклади, коли я їх отримую.]

Відповіді:


8

Тож переважна більшість моєї галузі (хоча не частина, над якою я працюю в більшості) стосується саме цього - пристосування моделей типу GLM до даних спостереження. Здебільшого інструментальні змінні є рідкістю або через недостатнє ознайомлення з технікою, або, що важливо, відсутність хорошого інструменту. Щоб вирішити свої запитання для того, щоб:

  1. Основна проблема - це, звичайно, якесь залишкове збентеження непоміченою змінною, яке пов'язане як із впливом, так і з результатом інтересу. Проста версія мови полягає в тому, що ваша відповідь може бути неправильною, але ви не обов'язково знаєте, як і чому. Рішення, прийняті на основі цієї інформації (наприклад, використовувати чи не використовувати певну обробку, чи небезпечна річ Х у навколишньому середовищі тощо), - це рішення, прийняті з використанням невірної інформації.

  2. Я запевняю, що відповідь на це "так", оскільки здебільшого ці дослідження намагаються знайти щось там, де не обов'язково є хороший інструмент, або де рандомізація неможлива. Тож коли мова йде про це, альтернативою є "Просто здогадайтесь". Ці моделі є, якщо нічого іншого, формалізацією наших думок і твердою спробою наблизитися до відповіді, і їх легше зрозуміти.

Наприклад, ви можете запитати, наскільки серйозними повинні бути упередження, щоб якісно змінити свою відповідь (наприклад, "Так, X поганий для вас ..."), і оцінити, чи вважаєте ви, що це розумне? Невідомий фактор чи ні сили, яка ховається за вашими даними.

Наприклад, знахідка того, що ВПЛ-інфекція надзвичайно сильно асоціюється з раком шийки матки, є важливою знахідкою, і сила невимірного фактора, який би змістив, що весь шлях до нуля повинен був бути приголомшливо сильним.

Крім того, слід зазначити, що інструмент цього не виправляє - вони також працюють лише за відсутності деяких неміряних асоціацій, і навіть рандомізовані випробування страждають від проблем (диференціальний випадок між лікуванням та контролем, будь-яка поведінка змінюється після рандомізації, узагальнення до фактичного цільове населення), які також трохи осяяні.

  1. Ротман, Гренландія та Лаш написали останнє видання " Сучасна епідеміологія" - це, по суті, книга, присвячена намаганням зробити це найкращим чином.

8

На відміну від точки зору епідеміолога, висловленого Фомітом, інструментальні змінні є важливим інструментарієм економіки, який вивчається досить рано. Причиною цього є те, що в економічних дослідженнях сьогодні є велика увага до спроб відповісти на причинно-наслідкові питання, що досягає певної міри, коли прості кореляції навіть розцінюються як нецікаві. Основне обмеження полягає в тому, що економіка - це сфера, якщо їй по суті важко робити рандомізовані експерименти. Якщо я хочу знати, яким є вплив ранньої батьківської смерті на довгострокові навчальні результати дитини, більшість людей буде заперечувати це через рандомізований контрольний слід - і це правильно. На цьому матеріалі з курсу MIT викладено на сторінці 3-5, які ще існують проблеми з експериментами.

Щоб звернутися до кожного пункту по черзі:

  1. Залежно від питання, на яке потрібно відповісти, не лише опущені змінні можуть призвести до недійсності аналізів даних спостережень без використання неекспериментальних методів. Проблеми з вибором, помилка вимірювання, зворотна причинність або одночасність можуть бути однаково важливими. Основне питання полягає в тому, що аналітику даних потрібно знати про обмеження цього параметра. Це стосується переважно ділового випадку, оскільки в академічному сценарії це було б розкрито швидко. Іноді я бачу аналітиків ринку, які хочуть оцінити еластичність цін, щоб повідомити клієнта (наприклад, на скільки зменшиться попит, якщо ми збільшимо ціни наx%), тому вони оцінюють рівняння попиту і повністю забувають або ігнорують той факт, що попит і пропозиція визначаються одночасно, і що одне впливає на інше. Тож наслідки значно більше залежать від обізнаності дослідника / аналітика даних щодо обмеження даних, а не самих даних, але наслідки, що виникають, можуть варіюватися від чогось тривіального до розширення, коли вони негативно впливають на життя людей.
  2. Показ кореляцій іноді може бути корисним, це просто дійсно залежить від питання. Шукаючи причинний ефект, також достатньо, якщо у вас є природний експеримент. Дані перепису в Чилі можуть бути спостережливими, але якщо ви хочете дізнатись, як останній землетрус вплинув на навчальні досягнення (де землетруси, можливо, екзогенні), то також дані спостереження чудово відповідають на причинно-наслідкове питання.
    Також можна певною мірою оцінити ендогенність без інструментів (див. Сторінку 9 у вищезгаданому матеріалі, «Оцінка ступеня зміщення упущених змінних»). Для двійкового не експериментального лікуванняDiВи можете обчислити ефект цього лікування, зробіть те ж саме для неспостережуваних і запитайте, наскільки повинен бути великий зсув у неспостережуваних, щоб пояснити спостережуваний ефект лікування. Якщо незмінний зсув повинен бути дуже великим, то ми можемо бути трохи більш довірливими щодо наших висновків. Довідкою для цього є Altonji, Elder і Taber (2000) .
  3. Напевно, будь-який прикладний економіст рекомендував би Анріста і Пішке (2009) "Здебільшого нешкідливих економетрик". Незважаючи на те, що ця книга в основному призначена для аспірантів та дослідників, можна пропустити математичні частини її та просто отримати інтуїцію, яка також непогано пояснюється. Спочатку вони вводять ідею експериментальної установки, потім схильні до ОЛС та її обмежень щодо ендогенності від опущених змінних, одночасності, вибору тощо, а потім широко обговорюють інструментальні змінні з хорошою часткою прикладів із прикладної літератури. Вони також обговорюють проблеми з інструментальними змінними, такими як слабкі інструменти або використовують занадто багато їх. Angrist and Krueger (2001) також надають нетехнічний огляд інструментальних змінних та потенційних підводних каменів, а також вони мають таблицю, яка резюмує декілька досліджень та їх інструментів.

Напевно, все це було набагато довше, ніж тут має бути типова відповідь, але питання дуже широке. Я просто хотів би наголосити на тому, що інструментальні змінні (яких часто важко знайти) - не єдина куля в нашій кишені. Існують й інші неекспериментальні методи виявлення причинних наслідків із даних спостережень, такі як різниця у різницях, конструкції припинення регресії, відповідність або регресія з фіксованими ефектами (якщо наші плутанини є інваріантними за часом). Все це обговорюється в Angrist and Pischke (2009) та у поданому матеріалі, який пов'язаний на початку.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.