Чи є у вас глобальне бачення цих методів аналізу?


24

Зараз я працюю над проектом, де мені в основному потрібно, як і ми, щоб зрозуміти, як результат пов'язаний з введенням x . Особливість тут полягає в тому, що дані ( y , x ) надаються мені по одному фрагменту, тому я хочу оновлювати свій аналіз кожен раз, коли я отримую новий ( y , x ) . Я вважаю, що це називається "он-лайн" обробкою, на відміну від "пакетної" обробки, де ви маєте всі необхідні дані та робите свої розрахунки, використовуючи всі дані одночасно.ух(у,х)(у,х)

Тому я роздивився ідеї, і нарешті дійшов висновку, що світ розділений на три:

  • Перша частина - це країна статистики та економетрики. Люди там роблять OLS, GLS, змінні інструменти, ARIMA, тести, різниця відмінностей, PCA і багато чого іншого. На цій землі в основному переважає лінійність і проводиться лише "пакетна" обробка.

  • Друга частина - це острів машинного навчання та інші слова, такі як штучний інтелект, контрольоване та непідконтрольне навчання, нейронні мережі та SVM. Тут виконується як "пакетна", так і "он-лайн" обробка.

  • Третя частина - це цілий континент, який я щойно відкрив, в основному заселений інженерами-електриками, так здається. Там люди часто додають слово «фільтр» для своїх інструментів, і вони винайшли великі харчування , як алгоритм Уїдроу-Гоффа, рекурсивних найменших квадратів , з фільтром Вінера , в фільтр Калмана , і , ймовірно , інших речей , які я до сих пір не виявлено. Мабуть, вони роблять в основному "он-лайн" обробку, оскільки це краще відповідає їх потребам.

Отже, моє запитання: чи є у вас глобальне бачення на все це? Мені здається, що ці три частини світу не надто розмовляють між собою. Я помиляюся? Чи існує велика уніфікована теорія розуміння того, як ставиться до X ? Чи знаєте ви будь-які ресурси, де можуть бути закладені основи цієї теорії?YХ

у=f(х)


Я думаю, що перші 2 області спілкуються між собою набагато більше в ці дні. Хоча велике питання!
Зак

Динамітна тема та добре написане запитання!
rolando2

1
Будь ласка, зробіть це CW.
кардинал

1
Я б назвав себе статистиком, але я роблю багато он-лайн речей, роблю кілька нелінійних моделей різного роду і намагаюся принаймні трохи AI. Я думаю, що відмінності в типових інструментах мають більше спільного з типом проблем, з якими люди стикаються. Там, де проблеми їх сходяться, рано чи пізно вони, як правило, знаходять або винаходять одні й ті ж інструменти (часто під різними назвами та з трохи різними дзвіночками).
Glen_b -Встановити Моніку

Відповіді:


4

Що стосується партії проти он-лайн, то мій досвід говорить про те, що іноді ти поєднуєш обидва. Я маю на увазі те, що ви дозволяєте важким підйомам, тобто обчислювати інтенсивні речі, пов'язані з формулюванням моделі, здійснюватися в режимі офлайн, а потім застосовувати швидкі / адаптаційні процедури для використання цих моделей. Ми виявили, що "нові дані" можна використовувати трьома способами; 1. просто прогнозувати; 2. переглянути параметри відомої моделі та 3. переглянути параметри та, можливо, переглянути модель. Ці три підходи були використані для "прямого аналізу", і, звичайно, час для виконання одного з цих трьох етапів залежить як від використовуваного програмного забезпечення, так і від наявного обладнання.

Тепер до вашого іншого питання щодо моделювання y vs x. Я вважаю за краще використовувати розширену версію регресії (звані функції передачі або моделі ARMAX) як основу для витягування впливу історії y та поточних та прохідних значень x. Важливо, щоб було підтверджено вимоги Гаусса та включити як необхідні проксі для як пропущеної детермінованої структури (через виявлення Outlier), так і опущеної стохастичної структури через компонент ARMA. Додатково потрібно переконатися, що не використовували занадто багато даних (тести на сталість параметрів) і що будь-яка непостійна дисперсія помилок, що виникає внаслідок детермінованої / стохастичної дисперсії помилок та / або зв’язку між очікуваним значенням y та дисперсією залишки.

Зараз історично (або в істеричному випадку, якщо хочете) різні думки намагалися сформулювати підходи. Багато моделей, які використовувались нашими предками, були показані як підмножини функції передачі, але є набори даних, які можна уявити, що оскаржують припущення щодо функції передачі. Хоча ці набори даних можуть існувати, не слід вважати, що вони будуть безпосередньо впливати на вас, якщо аналіз не дасть такого висновку.

Такі тексти, як Вей (Аддісон-Весслі) або Бокс-Дженкінс, повинні надати розумну дорожню карту для підтримки моїх комнентів і для того, щоб привести вас до додаткових "відповідей"

До речі, це велике запитання!

Крім того, якщо у вас є якісь дані, які ви хочете використовувати, я можу продемонструвати різні варіанти, викладені в цьому документі. Будь ласка, опублікуйте свої дані в Інтернеті, щоб усі побачили та використали їх зусилля щодо відновлення "у до х".


Дякую за вашу відповідь! Я загляну в це глибше, як тільки встигну, і, певно, повернусь до вас. Треба сказати, що не знав моделі ARMAX. Я здогадуюсь, я потрапив би безпосередньо до ендогенної ВАР. Що стосується даних, то насправді ми все ще розробляємо інші матеріали для нашого проекту, тому зараз у мене немає багато релевантних даних. Але дуже дякую, ви повинні почути від мене ще раз!
Артур

"підтвердити Гауссові вимоги": чи не гауссова / непараметрична / моделювання забуття (темп Брейман) глибокий розкол?
denis

2

Брейман розглядає це питання у " Статистичному моделюванні: дві культури ". Перша відповідь на відмінне запитання.


Спасибі! Ваше посилання не працює для мене, що один робіт і це одне веде безпосередньо до PDF. Я читав лише тез у рефераті та якусь частину випадково, і це виглядає дуже цікаво. Хлопці, здається, абсолютно "анти класична статистика", хоча. Знову дякую.
Артур

Чудово - я оновив посилання. Це веселе читання - насолоджуйтесь!
Ram Ahluwalia

«Дві культури» Брейман були обговорені тут : деякі цікаві моменти, але це важко змінити або навіть пояснити своє мислення.
denis

1

Я підозрюю, що відповідь на це питання - це те, що "немає безкоштовного обіду". Можливо, причина статистиків, вчених-комп'ютерів та інженерів-електриків розробили різні алгоритми в тому, що вони зацікавлені у вирішенні різних проблем.


0

Я б сказав, що ці три групи, які ви вказали, справді є лише двома групами:

  • Статистика
  • Машинне навчання, штучний інтелект та розпізнавання образів.

Усі гілки, пов'язані з фільтруванням сигналів, базуються на двох аспектах: вилучення функції (вейвлети, Габор і Фур'є), що належить до розпізнавання візерунків, і дискретна трансформація Фур'є, що належить до жорсткої математики. Фактично цифрова фільтрація більш близька до інженерної сторони, оскільки вона намагається вирішити цю проблему розпізнавання шаблонів за допомогою простих і низьких алгоритмів обчислювальної вартості. Але по суті це машинне навчання.

Більше того, фільтрування, вейвлети, Габор та Фур'є широко використовуються в обробці зображень, що є ядром штучного зору.

Різниця існує між статистикою та машинним навчанням.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.