Які існують стандартні практики створення синтетичних наборів даних?


26

Як контекст: Під час роботи з дуже великим набором даних мене іноді запитують, чи можемо ми створити синтетичний набір даних, де ми «знаємо» взаємозв'язок між предикторами та змінною відповіді або відносини між предикторами.

З роками я, мабуть, стикаюся або з одноразовими синтетичними наборами даних, схожими на те, що вони були приготовані спеціально, або з більш структурованими наборами даних, які здаються особливо сприятливими для запропонованого дослідником методу моделювання.

Я вважаю, що я переглядаю стандартні методи створення синтетичних наборів даних. Хоча перекомпіляція завантажувальної програми є одним із поширених методів створення синтетичного набору даних, вона не задовольняє умові, що ми знаємо структуру апріорі . Більше того, обмін зразками завантажувальної програми з іншими, по суті, вимагає обміну даними, а не методом генерування даних.

Якщо ми можемо встановити параметричний розподіл до даних або знайти досить близьку параметризовану модель, то це один із прикладів, коли ми можемо генерувати синтетичні набори даних.

Які ще існують методи? Мене особливо цікавлять великі розмірні дані, розріджені дані та дані часових рядів. Для отримання даних про великі розміри я би шукав методів, які можуть генерувати цікаві структури (наприклад, коваріаційна структура, лінійні моделі, дерева тощо). Для даних часових рядів, починаючи з дистрибутивів по FFT, AR-моделям або різних інших моделей фільтрації чи прогнозування, здається початком. Для розріджених даних корисне відтворення шаблону розрідженості.

Я вважаю, що це лише дряпає поверхню - це евристичні, а не формальні практики. Чи є посилання або ресурси для генерування синтетичних даних, які повинні бути відомі практикам?


Примітка 1: Я розумію, що це питання стосується літератури про те, як можна генерувати такі дані, як певна модель часового ряду. Відмінність тут полягає у практиці, особливо для того, щоб вказати на відому структуру (моє запитання) порівняно з подібністю / вірністю існуючому набору даних. У моєму випадку не обов’язково мати подібність, як відома структура, хоча подібність вкрай віддається перевазі несхожості. Екзотичний синтетичний набір даних, для якого модель демонструє перспективність, є менш бажаним, ніж реалістичне моделювання.

Примітка 2: Запис у Вікіпедії для синтетичних даних вказує на те, що такі світила, як Рубін та Фіенберг, вирішили цю проблему, хоча я не знайшов посилань на найкращі практики. Було б цікаво дізнатися, що було б зібрано, скажімо, з «Аналами прикладної статистики» (або AOS), або в оглядових роботах у тих чи інших журналах. Простими і примхливими словами, можна запитати, де існує поріг між "(прийнятно) приготованим" та "занадто приготовленим"?

Примітка 3: Хоча це не впливає на питання, сценарій використання полягає у моделюванні різних великих, великогабаритних наборів даних, де програма дослідження має вивчити (як людину, так і машину ;-)) структуру даних. На відміну від одновимірного, двоваріантного та інших низькомірних сценаріїв, структура не виводиться легко. Коли ми крокуємо до кращого розуміння структури, інтерес для генерування наборів даних із подібними властивостями представляє інтерес для того, щоб побачити, як метод моделювання взаємодіє з даними (наприклад, для вивчення стабільності параметрів). Тим не менш, більш старі напрямні щодо синтетичних даних з низькими розмірами можуть бути відправною точкою, яка може бути розширена або адаптована для наборів даних з більшими розмірами.

Відповіді:


7

Я не впевнений, що існують стандартні практики генерування синтетичних даних - вони використовуються настільки сильно в багатьох різних аспектах досліджень, що цільові дані здаються більш поширеним і, можливо, більш розумним підходом.

Для мене найкраща стандартна практика - не робити набір даних, щоб він добре працював із моделлю. Це частина етапу дослідження, а не частина етапу генерації даних. Натомість дані повинні бути розроблені для відображення процесу генерації даних . Наприклад, для імітаційних досліджень з епідеміології я завжди починаю з великої гіпотетичної популяції з відомим розподілом, а потім моделюю вибірки дослідження з цієї популяції, а не генерую "досліджувану сукупність" безпосередньо.

Наприклад, на основі нашого обговорення нижче, два приклади модельованих даних, які я зробив:

  • Дещо подібний до прикладу вашої моделі SIR нижче, я одного разу використовував математичну модель поширення хвороби по мережі, щоб показати себе за допомогою моделювання, що певний постійний параметр не обов'язково передбачає постійну небезпеку, якщо ви трактували результати як результат когортного дослідження. Це було корисним доказом концепції, коли я пішов копати аналітичне рішення.
  • Я хотів вивчити вплив певної схеми вибірки для дослідження випадку. Замість того, щоб намагатися генерувати дослідження прямо, я проходив кожен крок процесу. Населення в 1 000 000 людей з відомою поширеністю захворювання та відомим коваріатним малюнком. Тоді з того, що імітує процес відбору проб - у цьому випадку, як випливали випадки та контроль у населення. Лише тоді я кинув фактичну статистичну модель на зібрані "імітаційні дослідження".

Моделювання на зразок останнього є дуже поширеними при вивченні впливу методів набору в дослідження, статистичних підходів до контролю за коваріатами тощо.


Дякую за відповідь. Однак, виходячи з того, що я знаю про епідеміологію, було зроблено набагато більше в розробці досить корисних стохастичних моделей, особливо серед моделей SIR. Це не так у багатьох інших областях, хоча можливість швидко розробити прийнятні стохастичні моделі даних є частиною мого наміру.
Ітератор

@ Ітератор Це дуже залежить від того, де ти знаходишся та про який аспект епідеміології ти говориш. Наприклад, епідеміолог з раку був би шокований, почувши, що "набагато більше" було зроблено з моделями SIR - вони, швидше за все, ніколи не зустрічали жодної у своїй роботі. Хоча моделі типу SIR є аспектом певної частини епідеміології (інфекційне захворювання епі, а вже тоді навіть не велика підмножина ІД Епі), епідеміологія як поле використовує надзвичайно багато статистичних моделей, зокрема загальних лінійних моделей, виживання аналіз та часові ряди.
Фоміт

Вау. Без жодних злочинів, я лише зазначив, що моделі SIR є дуже хорошим прикладом стандартної моделі генерування даних. Звичайно, мені відомо, що є й інші області епі, які використовують цілий спектр методів моделювання. Якщо у вас є якісь покажчики чи посилання на інші методи генерування даних, що застосовуються в епідеміології, я до них цілком відкритий.
Ітератор

1
@Iterator Вибачте, якщо створив враження, що я образився. Дуже не так;). Це я щось отримую, тому що я сиджу квадратним у перетині між математичною епі та спостережною епідеміологією, і люди в одній зоні здивовані, інша область існує. Я відредагую свою відповідь на прикладі не-SIR.
Фоміт

2

Статистичний пакет R має імітаційну функцію, яка буде імітувати дані на основі моделі, що відповідає наявним даним. При цьому використовується пристосована модель як "відоме" співвідношення населення, а потім моделюється нові дані на основі цієї моделі. Існує метод для цієї функції в пакеті lme4. Ці пристосовані об'єкти можуть враховувати випадкові та фіксовані ефекти та кореляцію (включаючи автокореляцію для часових рядів).

Це може спрацювати, що ви хочете.


Дякую за пропозицію. Ця функція, безумовно, корисна, хоча мій інтерес більше стосується статистичної практики та методології, а не коду для конкретного рішення. Це схоже на запитання про методи відбору проб або відтворювані аналізи, а не про конкретні пакети, які реалізують зазначені методи та аналізи. Тим не менше, хороші методи повинні стати пакетами. :)
Ітератор
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.