Перехресно розміщуючи моє запитання від mathoverflow, щоб знайти конкретну допомогу щодо статистики.
Я вивчаю фізичний процес, генеруючи дані, які чітко проектуються у два виміри з негативними значеннями. Кожен процес має (проектовану) доріжку з - точок - див. Зображення нижче.
Зразки доріжок синього кольору, клопіткий тип доріжки був намальований зеленим кольором, а область, яка викликає занепокоєння, намальована червоним кольором:
Кожен трек є результатом незалежного експерименту. Протягом декількох років було проведено двадцять мільйонів експериментів, але з цих лише двох тисяч виявляється особливість, яку ми закладаємо як доріжку. Ми стурбовані лише експериментами, які генерують трек, тому наш набір даних становить (приблизно) дві тисячі треків.
Можливо, щоб доріжка потрапила в область, яка викликає занепокоєння, і ми очікуємо, що це буде для порядку на треків. Оцінка цього числа є питанням, про яке йдеться:
Як ми можемо обчислити ймовірність потрапляння довільної колії в область, що викликає занепокоєння?
Неможливо провести експерименти досить швидко, щоб побачити, як часто генеруються треки, які потрапляють у область, що викликає занепокоєння, тому нам потрібно екстраполювати з наявних даних.
Ми встановили, наприклад, значення задані , але це недостатньо обробляє дані, такі як зелена доріжка - здається, необхідна модель, що включає обидва виміри.
Ми встановили мінімальну відстань від кожної колії до регіону, який викликає занепокоєння, але ми не переконані, що це дає виправданий результат.
1) Чи відомий спосіб пристосування розподілу до цього типу даних для екстраполяції?
або
2) Чи існує очевидний спосіб використання цих даних для створення моделі для генерації треків? Наприклад, використовуйте аналіз основних компонентів на треках як точки у великому просторі, а потім встановіть розподіл (Pearson?) На композиції, запроектовані на ці компоненти.