Загальний підхід полягає в тому, щоб зробити традиційний статистичний аналіз на вашому наборі даних, щоб визначити багатовимірний випадковий процес, який генеруватиме дані з однаковими статистичними характеристиками. Гідність цього підходу полягає в тому, що ваші синтетичні дані не залежать від вашої моделі ML, але статистично «близькі» до ваших даних. (див. нижче для обговорення вашої альтернативи)
По суті, ви оцінюєте багатоваріантний розподіл ймовірностей, пов'язаний з процесом. Після того, як ви оціните розподіл, ви можете генерувати синтетичні дані методом Монте-Карло або подібними повторними методами відбору проб. Якщо ваші дані нагадують деякий параметричний розподіл (наприклад, лонормальний), такий підхід є простим та надійним. Хитра частина полягає в оцінці залежності між змінними. Дивіться: https://www.encyclopediaofmath.org/index.php/Multi-dimensions_statistic_analysis .
Якщо ваші дані нерегулярні, то непараметричні методи простіші та, ймовірно, більш надійні. Багатовимірна оцінка щільності ядра - це метод, який є доступним і привабливим для людей, що мають ML. Загальне вступ та посилання на конкретні методи див. На веб-сторінці : https://en.wikipedia.org/wiki/Nonparametric_statistics .
Щоб підтвердити, що цей процес спрацював для вас, ви знову проходите процес машинного навчання із синтезованими даними, і вам слід додати модель, яка досить близька до оригіналу. Так само, якщо ви вводите синтезовані дані у вашу модель ML, ви повинні отримати виходи, які мають аналогічний розподіл, як і вихідні результати.
Навпаки, ви пропонуєте це:
[оригінальні дані -> побудувати модель машинного навчання -> використовувати модель ml для отримання синтетичних даних .... !!!]
Це робить щось інше, ніж метод, який я щойно описав. Це дозволило б вирішити зворотну задачу : "які входи можуть генерувати будь-який заданий набір вихідних моделей". Якщо ваша модель ML не надто пристосована до ваших оригінальних даних, ці синтезовані дані не будуть виглядати як ваші вихідні дані в будь-якому відношенні або навіть більшість.
Розглянемо модель лінійної регресії. Одна і та ж модель лінійної регресії може мати однакове пристосування до даних, що мають дуже різні характеристики. Знаменита демонстрація цього відбувається через квартет Anscombe .
Думаючи, що я не маю посилань, я вважаю, що ця проблема може виникнути також при логістичній регресії, узагальнених лінійних моделях, кластеризації SVM та K-засобів.
Існують деякі типи моделей ML (наприклад, дерево рішень), де можна повернути їх для отримання синтетичних даних, хоча це потребує певної роботи. Див.: Створення синтетичних даних для відповідності шаблонів видобутку даних .