Назвіть відомі існуючі практичні програми теорії хаосу у видобутку даних?


13

Недбало читаючи деякі твори масового ринку з теорії хаосу протягом останніх кількох років, я почав замислюватися, як різні аспекти його можуть бути застосовані до вибору даних та суміжних областях, як нейронні мережі, розпізнавання шаблонів, управління невизначеністю тощо. На сьогоднішній день я я одержав так мало прикладів таких застосувань у опублікованому дослідженні, що мені цікаво, чи: а) вони насправді були застосовані на практиці у відомих, опублікованих експериментах та проектах; б) якщо ні, то чому їх так мало використовують у цих взаємопов'язаних поля?

Більшість дискусій теорії хаосу, які я бачив дотепер, обертаються навколо наукових застосувань, які є цілком корисними, але мають мало спільного з видобутком даних та суміжними сферами, такими як розпізнавання шаблонів; Одним з архетипних прикладів є проблема "Три тіла" з фізики. Я хочу відмовитися від обговорення звичайних наукових застосувань такого роду і обмежити питання виключно тими програмами, які, очевидно, стосуються видобутку даних та суміжних галузей, яких, мабуть, мало в літературі. Перелік потенційних додатків, наведених нижче, може бути використаний як відправна точка пошуку опублікованих досліджень, але мене цікавлять лише ті програми, які фактично були застосовані на практиці, якщо такі є. Що я шукаю - це відомі втілення теорії хаосу для видобутку даних, всупереч переліку потенційних додатків, який значно ширший. Ось невеликий вибірки ідей без манжет для додатків пошуку даних, які траплялися мені під час читання; можливо, жоден з них не є прагматичним, можливо, деякі з них використовуються на практиці, коли ми говоримо, але виходимо за умовами, з якими я ще не знайомий:

  1. Визначення самоподібних структур у розпізнаванні шаблонів, як це зробив Мандельброт практичним чином у випадку поривів помилок в аналогових телефонних лініях кілька десятиліть тому.
  2. Зустрічаючи константу Фейгенбаума в результатах видобутку (можливо, таким чином, як теоретики струн були здивовані, коли рівняння Максвелла спливають у несподіваних місцях під час своїх досліджень).
  3. Визначення оптимальної глибини бітів для нейронних вагових сіток і різних випробувань гірничої справи. Я замислився над цим через те, що зникає невелика числова шкала, при якій вступає в рух чутливість до початкових умов, які частково відповідають за непередбачуваність функцій, пов'язаних з хаосом.
  4. Використання поняття дробових розмірів іншими способами, не обов'язково пов'язаними з захоплюючими фрактальними цікавинками, як, наприклад, губки Менгера, криві Коха або килими Серпінського. Можливо, концепція може бути застосована до розмірів гірничих моделей якось вигідно, трактуючи їх як дробові?
  5. Виведення законів влади, як тих, що вступають у гру у фракталах.
  6. Оскільки функції, які зустрічаються у фракталах, нелінійні, мені цікаво, чи є якесь практичне застосування для нелінійної регресії.
  7. Теорія хаосу має деякі тангенціальні (а іноді і завищені) відносини до ентропії, тому мені цікаво, чи є спосіб обчислити Ентропію Шеннона (або обмеження на неї та її родичів) з функцій, що використовуються в теорії хаосу, або навпаки.
  8. Визначення поведінки подвоєння періодів у даних.
  9. Визначення оптимальної структури нейронної мережі шляхом інтелектуального вибору тих, які, швидше за все, "самоорганізуються" корисним чином.
  10. Хаос і фрактали тощо також дотично пов'язані з обчислювальною складністю, тому мені цікаво, чи можна було б використати складність для ідентифікації хаотичних структур, чи навпаки.
  11. Я вперше почув про показник Ляпунова з точки зору теорії хаосу і з того часу помітив його в рецептах конкретних нейронних сіток і дискусіях ентропії.

Напевно, десятки інших стосунків я тут не перераховував; все це зійшло з моєї голови. Мені не дуже цікаві конкретні відповіді на ці конкретні спекуляції, але я просто викидаю їх як приклади типу програм, які можуть існувати в дикій природі. Я хотів би побачити відповіді, у яких є приклади сучасних досліджень та існуючих втілень таких ідей, поки додатки спеціально застосовні для пошуку даних.

Напевно, є й інші існуючі реалізації, про які я не знаю, навіть у сферах, з якими я більше знайомий (наприклад, теорія інформації, нечіткі множини та нейронні мережі) та інші, з якими я маю ще меншу компетенцію, як регресія, тому більше вкладу ласкаво просимо. Моя практична мета тут - визначити, чи варто вкладати більше грошей у вивчення конкретних аспектів теорії хаосу, яку я поставлю на задній пальник, якщо не зможу знайти явної корисності.

Я здійснив пошук CrossValided, але не побачив жодної теми, яка б безпосередньо стосувалася утилітарних застосувань теорії хаосу для видобутку даних і т. Д. Найближчим, що я міг би прийти, була нитка теорії хаосу, моделювання без рівнянь та непараметрична статистика , яка стосується із конкретним підмножиною.


Коментарі не для розширеного обговорення; ця розмова була переміщена до чату .
whuber

Відповіді:


7

Виведення даних (DM) як практичний підхід, здається, майже доповнює підходи до математичного моделювання (MM) і навіть суперечить теорії хаосу (КТ). Спершу я поговорю про ДМ та загальний ММ, а потім зосереджуся на КТ.

Математичне моделювання

У економічному моделюванні DM до недавнього часу вважався майже табу, зловживання рибалок на кореляції замість того, щоб дізнатися про причинно-наслідкові зв’язки та стосунки, дивіться цей пост у блозі SAS. Ставлення змінюється, але є багато підводних каменів, пов’язаних з хибними стосунками , драгуванням даних , зловмисниками тощо.

У деяких випадках DM представляється законним підходом навіть у галузях із усталеною практикою використання ММ. Наприклад, DM може бути використаний для пошуку взаємодій частинок у фізичних експериментах, які генерують багато даних, придумують руйнування частинок. У цьому випадку фізики можуть мати уявлення про те, як виглядають частинки, і шукати шаблони в наборах даних.

Теорія хаосу

Хаотична система, ймовірно, особливо стійка до аналізу методами ДМ. Розглянемо знайомий лінійний конгрументальний метод ( LCG ), що використовується у загальних генераторах псевдовипадкових чисел . Це по суті хаотична система . Ось чому він використовується для "підробки" випадкових чисел. Хороший генератор не відрізнятиметься від випадкової послідовності чисел. Це означає, що ви не зможете визначити, випадковий він чи ні, використовуючи статистичні методи. Я сюди включу і пошук даних. Спробуйте знайти візерунок у послідовності, що генерується RAND (), при обробці даних! Але, знову ж таки, це цілком детермінована послідовність, як відомо, і її рівняння також надзвичайно прості.

Теорія хаосу - це не випадковий пошук шаблонів подібності. Теорія хаосу передбачає вивчення процесів та динамічних відносин, так що дрібні порушення посилюються в системі, створюючи нестабільну поведінку, тоді як якось у цьому хаосі виникають стійкі закономірності. Весь цей класний матеріал відбувається завдяки властивостям самих рівнянь. Потім дослідники вивчають ці рівняння та їхні системи. Це дуже відрізняється від розумового набору прикладного майнінгу даних.

Наприклад, ви можете поговорити про моделі подібності, вивчаючи хаотичні системи, і помітити, що шахтарі даних також говорять про пошук шаблонів. Однак ці ручки поняття "візерунок" дуже різні. Хаотична система породжувала б ці зразки з рівнянь. Вони можуть спробувати придумати свій набір рівнянь, спостерігаючи фактичні системи тощо, але вони завжди мають справу з рівняннями в певний момент. Шахтарі даних прийдуть з іншого боку, і, не знаючи і не здогадуючись про внутрішню структуру системи, намагаються шукати шаблони. Я не думаю, що ці дві групи ніколи не дивляться на однакові фактичні системи чи набори даних.

Інший приклад - найпростіша логістична карта, з якою працював Фейгенбаум, щоб створити свій знаменитий період подвоєння біфуркації.

введіть тут опис зображення

Рівняння смішно просте: Тим не менш, я не бачу, як би його виявити за допомогою методів пошуку даних.

хн+1=rхн(1-хн)


(+1). Додам, що коли ви зможете точно визначити рівняння, яке визначає хаотичну поведінку системи, ви можете спрогнозувати таку поведінку повністю або близько до неї. Ми рідко можемо отримати R-квадрат навіть> .5 при моделюванні даних / прогнозуванні.
rolando2

+1 це, безумовно, є доповненням до відповіді, яку я вже деякий час готую, яку я опублікую через кілька годин.
SQLServerSteve

4

Найдивніше, що я виявив під час читання теорії хаосу, щоб відповісти на це питання, - дивовижний недолік опублікованих досліджень, в яких видобуток даних та його родичі використовують теорію хаосу. Це було незважаючи на злагоджені зусилля, щоб їх знайти, консультуючись з такими джерелами, як «Прикладна теорія хаосу» А. Ямбеля: парадигма про складність та Аллігуд та ін., Хаос: Вступ до динамічних систем (останній неймовірно корисний як джерело книги для ця тема) та рейдерство в їх бібліографіях. Зрештою, я повинен був лише придумати єдине дослідження, яке могло б бути кваліфікованим, і мені довелося розтягнути межі "пошуку даних" лише для того, щоб включити цей крайній випадок: команда Техаського університету, яка проводила дослідження реакцій Білоусова-Жаботинського (БЖ) (які, як відомо, були схильні до аперіодичності), випадково виявила невідповідності малонової кислоти, використовуваної в своїх експериментах через хаотичні зразки, що спонукало їх шукати нову постачальник. [1] Мабуть, є й інші - я не фахівець з теорії хаосу і навряд чи можу дати вичерпну оцінку літературі, - але сувора диспропорція із звичайними науковими напрямами, такими як проблема "Три тіла" з фізики, не змінилася б сильно, якби ми перерахували їх усі. Насправді, тим часом, коли це питання було закрито, Я розглядав можливість переписати її під заголовком "Чому так мало втілення теорії хаосу у видобуток даних та суміжні поля?" Це невідповідно з неправильно визначеним, але широко розповсюдженим настроєм, що повинно бути безліч застосувань у видобутку даних і суміжних областях, як нейронні мережі, розпізнавання шаблонів, управління невизначеністю, нечіткі набори тощо; зрештою, теорія хаосу також є актуальною темою з багатьма корисними програмами. Мені довелося довго і важко замислюватися над тим, де саме лежать межі між цими полями, щоб зрозуміти, чому мій пошук був безрезультатним і моє враження неправильним.

Відповідь; tldr

Коротке пояснення цього різкого дисбалансу в кількості досліджень та відхилення від очікувань можна пояснити тим, що теорія хаосу та видобуток даних тощо відповідають на два акуратно розділені класи питань; різка дихотомія між ними очевидна, як тільки було зазначено, але настільки фундаментальна, що залишається непоміченою, як і дивитися у власний ніс. Можливо, є певне виправдання для думки, що відносна новизна теорії хаосу та таких галузей, як видобуток даних, пояснює деякі недоліки реалізацій, але ми можемо очікувати, що відносний дисбаланс збережеться навіть у міру дозрівання цих полів, оскільки вони просто вирішують чітко різні сторони та ж монета. Майже всі реалізації на сьогодні були в дослідженнях відомих функцій з чітко визначеними виходами, які, як правило, виявляли кілька дивовижних хаотичних відхилень, тоді як видобуток даних та окремі методи, такі як нейронні мережі та дерева рішень, передбачають визначення невідомої або погано визначеної функції. Пов'язані поля, такі як розпізнавання шаблонів і нечіткі множини, також можуть розглядатися як організація результатів функцій, які також часто невідомі або погано визначені, коли засоби цієї організації також не є очевидними. Це створює практично нездоланну прірву, яку можна перетнути лише за певних рідкісних обставин - але навіть вони можуть бути згруповані разом у рубриці єдиного випадку використання: запобігання аперіодичного втручання в алгоритми виведення даних. Пов'язані поля, такі як розпізнавання шаблонів і нечіткі множини, також можуть розглядатися як організація результатів функцій, які також часто невідомі або погано визначені, коли засоби цієї організації також не є очевидними. Це створює практично нездоланну прірву, яку можна перетнути лише за певних рідкісних обставин - але навіть вони можуть бути згруповані разом у рубриці єдиного випадку використання: запобігання аперіодичного втручання в алгоритми виведення даних. Пов'язані поля, такі як розпізнавання шаблонів і нечіткі множини, також можуть розглядатися як організація результатів функцій, які також часто невідомі або погано визначені, коли засоби цієї організації також не є очевидними. Це створює практично нездоланну прірву, яку можна перетнути лише за певних рідкісних обставин - але навіть вони можуть бути згруповані разом у рубриці єдиного випадку використання: запобігання аперіодичного втручання в алгоритми виведення даних.

Несумісність із документообігом Хаосу

Типовим робочим процесом в "науці про хаос" є проведення обчислювального аналізу виходів відомої функції, часто поряд із візуальними посібниками фазового простору, як діаграми біфуркації, карти Генона, секції Пуанкаре, фазові діаграми та фазові траєкторії. Той факт, що дослідники покладаються на обчислювальні експерименти, показує, як важко знайти хаотичні ефекти; це не те, що зазвичай можна визначити пером та папером. Вони також зустрічаються виключно в нелінійних функціях. Цей робочий процес неможливо здійснити, якщо у нас немає відомої функції, з якою працювати. Дані даних можуть давати рівняння регресії, нечіткі функції тощо, але всі вони мають одне і те ж обмеження: вони є лише загальними наближеннями з набагато ширшим вікном помилок. На відміну від цього, відомі функції, що піддаються хаосу, відносно рідкісні, як і діапазони вхідних даних, які дають хаотичні візерунки, тому навіть для перевірки хаотичних ефектів потрібен високий ступінь специфічності. Будь-які дивні аттрактори, присутні у фазовому просторі невідомих функцій, безумовно, зміщуватимуться або зовсім зникатимуть, коли їх визначення та входи змінюються, значно ускладнюючи процедури виявлення, окреслені такими авторами, як Alligood та ін.

Хаос як забруднювач в результатах обміну даними

Насправді взаємозв'язок видобутку даних та її родичів до теорії хаосу практично суперечливий. Це буквально вірно, якщо ми розглядаємо криптоаналіз в цілому як специфічну форму обміну даними, враховуючи, що я натрапив принаймні на один дослідницький документ про використання хаосу в схемах шифрування (на даний момент я не можу знайти цитування, але можу полювати це вниз за запитом). Для шахтаря даних, як правило, наявність хаосу - це погана річ, оскільки, здавалося б, безглузді діапазони значень, які він виводить, можуть значно ускладнити і без того важкий процес наближення до невідомої функції. Найбільш поширене використання хаосу в пошуку даних і пов'язаних з ними полів - це виключення, що не означає подвигу. Якщо хаотичні ефекти є, але невиявлені, їх вплив на підприємство з видобутку даних може бути важко перемогти. Подумайте, наскільки легко звичайна нейронна сітка або дерево рішень може подолати, здавалося б, безглузді виходи хаотичного аттрактора, або як раптові сплески вхідних значень, безумовно, можуть бентежити регресійний аналіз і можуть бути віднесені до поганих зразків чи інших джерел помилок. Рідкість хаотичних ефектів серед усіх функцій та діапазонів введення означає, що дослідженню їх буде сильно деприортизовано експериментатори.

Методи виявлення хаосу в результатах обміну даними

Деякі заходи, пов'язані з теорією хаосу, корисні при виявленні аперіодичних ефектів, наприклад, Ентропія Колмогорова та вимога, щоб фазовий простір виявляв позитивний показник Ляпунова. Вони знаходяться в контрольному списку виявлення хаосу [2], наведеному в прикладній теорії хаосу А.Б.Амбеля, але більшість з них не корисні для наближених функцій, наприклад, показника Ляпунова, який вимагає певних функцій із відомими межами. Загальний порядок, який він окреслює, може бути корисним при обробці даних; Метою Амбел є врешті-решт програма «контролю хаосу», тобто усунення аферидуючих впливів, що заважають. [3] Інші методи, такі як обчислення розмірів коробки та кореляційні розміри для виявлення дробових розмірів, що призводять до хаосу, можуть бути більш практичними в застосуванні для вилучення даних, ніж Ляпунов та інші у його списку. Іншою ознакою хаотичних ефектів є наявність подвійних (або утроєних і поза ними) моделей у функціональних виведеннях, що часто передує аперіодичній (тобто "хаотичній") поведінці на фазових діаграмах.

Диференціація тангенціальних застосувань

Цей випадок первинного використання повинен відрізнятися від окремого класу застосувань, які стосуються лише тангенціальної теорії хаосу. При більш детальному огляді перелік "потенційних застосувань", який я представив у своєму запитанні, фактично майже складався з ідей щодо використання понять, від яких залежить теорія хаосу, але які можуть застосовуватися самостійно за відсутності апериодичної поведінки (виключається подвоєння періоду). Нещодавно я думав про використання нової потенціальної ніші, що генерує аперіодичну поведінку для виведення нейронних мереж з місцевих мінімумів, але це теж належить до переліку дотичних застосувань. Багато з них були виявлені або розроблені в результаті досліджень науки про хаос, але можуть бути застосовані і в інших галузях. Ці "дотичні програми" мають лише нечіткі зв'язки один з одним, але утворюють окремий клас, відокремлений жорсткою межею від основного випадку використання теорії хаосу при видобутку даних; перший використовує певні аспекти теорії хаосу без аперіодичних закономірностей, а останній присвячений виключно виключенню хаосу як ускладнюючого чинника результатів видобутку даних, можливо, з використанням таких передумов, як позитивність показника Ляпунова та виявлення подвоєння періоду . Якщо ми розмежовуємо теорію хаосу та інші поняття, в яких вона правильно використовується, неважко помітити, що застосування перших притаманне лише звичайним науковим дослідженням. Дійсно є вагомі підстави радіти потенційним застосуванням цих вторинних концепцій за відсутності хаосу, але також привід турбуватися про забруднюючі наслідки несподіваної аперіодичної поведінки на видобуток даних, коли він присутній. Такі випадки будуть рідкісними, але ця рідкість також може означати, що вони залишаться непоміченими. Метод Ҫambel, можливо, буде корисний для вирішення подібних проблем.

[1] С. 143-147, Alligood, Kathleen T .; Зауер, Тім Д. та Йорк, Джеймс А., 2010, Хаос: Вступ до динамічних систем, Спрингер: Нью-Йорк. [2] С. 208-213, Ҫambel, AB, 1993, прикладна теорія хаосу: парадигма складності, Academic Press, Inc: Бостон. [3] с. 215, Ҫambel.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.