Як контекст: Під час роботи з дуже великим набором даних мене іноді запитують, чи можемо ми створити синтетичний набір даних, де ми «знаємо» взаємозв'язок між предикторами та змінною відповіді або відносини між предикторами.
З роками я, мабуть, стикаюся або з одноразовими синтетичними наборами даних, схожими на те, що вони були приготовані спеціально, або з більш структурованими наборами даних, які здаються особливо сприятливими для запропонованого дослідником методу моделювання.
Я вважаю, що я переглядаю стандартні методи створення синтетичних наборів даних. Хоча перекомпіляція завантажувальної програми є одним із поширених методів створення синтетичного набору даних, вона не задовольняє умові, що ми знаємо структуру апріорі . Більше того, обмін зразками завантажувальної програми з іншими, по суті, вимагає обміну даними, а не методом генерування даних.
Якщо ми можемо встановити параметричний розподіл до даних або знайти досить близьку параметризовану модель, то це один із прикладів, коли ми можемо генерувати синтетичні набори даних.
Які ще існують методи? Мене особливо цікавлять великі розмірні дані, розріджені дані та дані часових рядів. Для отримання даних про великі розміри я би шукав методів, які можуть генерувати цікаві структури (наприклад, коваріаційна структура, лінійні моделі, дерева тощо). Для даних часових рядів, починаючи з дистрибутивів по FFT, AR-моделям або різних інших моделей фільтрації чи прогнозування, здається початком. Для розріджених даних корисне відтворення шаблону розрідженості.
Я вважаю, що це лише дряпає поверхню - це евристичні, а не формальні практики. Чи є посилання або ресурси для генерування синтетичних даних, які повинні бути відомі практикам?
Примітка 1: Я розумію, що це питання стосується літератури про те, як можна генерувати такі дані, як певна модель часового ряду. Відмінність тут полягає у практиці, особливо для того, щоб вказати на відому структуру (моє запитання) порівняно з подібністю / вірністю існуючому набору даних. У моєму випадку не обов’язково мати подібність, як відома структура, хоча подібність вкрай віддається перевазі несхожості. Екзотичний синтетичний набір даних, для якого модель демонструє перспективність, є менш бажаним, ніж реалістичне моделювання.
Примітка 2: Запис у Вікіпедії для синтетичних даних вказує на те, що такі світила, як Рубін та Фіенберг, вирішили цю проблему, хоча я не знайшов посилань на найкращі практики. Було б цікаво дізнатися, що було б зібрано, скажімо, з «Аналами прикладної статистики» (або AOS), або в оглядових роботах у тих чи інших журналах. Простими і примхливими словами, можна запитати, де існує поріг між "(прийнятно) приготованим" та "занадто приготовленим"?
Примітка 3: Хоча це не впливає на питання, сценарій використання полягає у моделюванні різних великих, великогабаритних наборів даних, де програма дослідження має вивчити (як людину, так і машину ;-)) структуру даних. На відміну від одновимірного, двоваріантного та інших низькомірних сценаріїв, структура не виводиться легко. Коли ми крокуємо до кращого розуміння структури, інтерес для генерування наборів даних із подібними властивостями представляє інтерес для того, щоб побачити, як метод моделювання взаємодіє з даними (наприклад, для вивчення стабільності параметрів). Тим не менш, більш старі напрямні щодо синтетичних даних з низькими розмірами можуть бути відправною точкою, яка може бути розширена або адаптована для наборів даних з більшими розмірами.