Найдивніше, що я виявив під час читання теорії хаосу, щоб відповісти на це питання, - дивовижний недолік опублікованих досліджень, в яких видобуток даних та його родичі використовують теорію хаосу. Це було незважаючи на злагоджені зусилля, щоб їх знайти, консультуючись з такими джерелами, як «Прикладна теорія хаосу» А. Ямбеля: парадигма про складність та Аллігуд та ін., Хаос: Вступ до динамічних систем (останній неймовірно корисний як джерело книги для ця тема) та рейдерство в їх бібліографіях. Зрештою, я повинен був лише придумати єдине дослідження, яке могло б бути кваліфікованим, і мені довелося розтягнути межі "пошуку даних" лише для того, щоб включити цей крайній випадок: команда Техаського університету, яка проводила дослідження реакцій Білоусова-Жаботинського (БЖ) (які, як відомо, були схильні до аперіодичності), випадково виявила невідповідності малонової кислоти, використовуваної в своїх експериментах через хаотичні зразки, що спонукало їх шукати нову постачальник. [1] Мабуть, є й інші - я не фахівець з теорії хаосу і навряд чи можу дати вичерпну оцінку літературі, - але сувора диспропорція із звичайними науковими напрямами, такими як проблема "Три тіла" з фізики, не змінилася б сильно, якби ми перерахували їх усі. Насправді, тим часом, коли це питання було закрито, Я розглядав можливість переписати її під заголовком "Чому так мало втілення теорії хаосу у видобуток даних та суміжні поля?" Це невідповідно з неправильно визначеним, але широко розповсюдженим настроєм, що повинно бути безліч застосувань у видобутку даних і суміжних областях, як нейронні мережі, розпізнавання шаблонів, управління невизначеністю, нечіткі набори тощо; зрештою, теорія хаосу також є актуальною темою з багатьма корисними програмами. Мені довелося довго і важко замислюватися над тим, де саме лежать межі між цими полями, щоб зрозуміти, чому мій пошук був безрезультатним і моє враження неправильним.
Відповідь; tldr
Коротке пояснення цього різкого дисбалансу в кількості досліджень та відхилення від очікувань можна пояснити тим, що теорія хаосу та видобуток даних тощо відповідають на два акуратно розділені класи питань; різка дихотомія між ними очевидна, як тільки було зазначено, але настільки фундаментальна, що залишається непоміченою, як і дивитися у власний ніс. Можливо, є певне виправдання для думки, що відносна новизна теорії хаосу та таких галузей, як видобуток даних, пояснює деякі недоліки реалізацій, але ми можемо очікувати, що відносний дисбаланс збережеться навіть у міру дозрівання цих полів, оскільки вони просто вирішують чітко різні сторони та ж монета. Майже всі реалізації на сьогодні були в дослідженнях відомих функцій з чітко визначеними виходами, які, як правило, виявляли кілька дивовижних хаотичних відхилень, тоді як видобуток даних та окремі методи, такі як нейронні мережі та дерева рішень, передбачають визначення невідомої або погано визначеної функції. Пов'язані поля, такі як розпізнавання шаблонів і нечіткі множини, також можуть розглядатися як організація результатів функцій, які також часто невідомі або погано визначені, коли засоби цієї організації також не є очевидними. Це створює практично нездоланну прірву, яку можна перетнути лише за певних рідкісних обставин - але навіть вони можуть бути згруповані разом у рубриці єдиного випадку використання: запобігання аперіодичного втручання в алгоритми виведення даних. Пов'язані поля, такі як розпізнавання шаблонів і нечіткі множини, також можуть розглядатися як організація результатів функцій, які також часто невідомі або погано визначені, коли засоби цієї організації також не є очевидними. Це створює практично нездоланну прірву, яку можна перетнути лише за певних рідкісних обставин - але навіть вони можуть бути згруповані разом у рубриці єдиного випадку використання: запобігання аперіодичного втручання в алгоритми виведення даних. Пов'язані поля, такі як розпізнавання шаблонів і нечіткі множини, також можуть розглядатися як організація результатів функцій, які також часто невідомі або погано визначені, коли засоби цієї організації також не є очевидними. Це створює практично нездоланну прірву, яку можна перетнути лише за певних рідкісних обставин - але навіть вони можуть бути згруповані разом у рубриці єдиного випадку використання: запобігання аперіодичного втручання в алгоритми виведення даних.
Несумісність із документообігом Хаосу
Типовим робочим процесом в "науці про хаос" є проведення обчислювального аналізу виходів відомої функції, часто поряд із візуальними посібниками фазового простору, як діаграми біфуркації, карти Генона, секції Пуанкаре, фазові діаграми та фазові траєкторії. Той факт, що дослідники покладаються на обчислювальні експерименти, показує, як важко знайти хаотичні ефекти; це не те, що зазвичай можна визначити пером та папером. Вони також зустрічаються виключно в нелінійних функціях. Цей робочий процес неможливо здійснити, якщо у нас немає відомої функції, з якою працювати. Дані даних можуть давати рівняння регресії, нечіткі функції тощо, але всі вони мають одне і те ж обмеження: вони є лише загальними наближеннями з набагато ширшим вікном помилок. На відміну від цього, відомі функції, що піддаються хаосу, відносно рідкісні, як і діапазони вхідних даних, які дають хаотичні візерунки, тому навіть для перевірки хаотичних ефектів потрібен високий ступінь специфічності. Будь-які дивні аттрактори, присутні у фазовому просторі невідомих функцій, безумовно, зміщуватимуться або зовсім зникатимуть, коли їх визначення та входи змінюються, значно ускладнюючи процедури виявлення, окреслені такими авторами, як Alligood та ін.
Хаос як забруднювач в результатах обміну даними
Насправді взаємозв'язок видобутку даних та її родичів до теорії хаосу практично суперечливий. Це буквально вірно, якщо ми розглядаємо криптоаналіз в цілому як специфічну форму обміну даними, враховуючи, що я натрапив принаймні на один дослідницький документ про використання хаосу в схемах шифрування (на даний момент я не можу знайти цитування, але можу полювати це вниз за запитом). Для шахтаря даних, як правило, наявність хаосу - це погана річ, оскільки, здавалося б, безглузді діапазони значень, які він виводить, можуть значно ускладнити і без того важкий процес наближення до невідомої функції. Найбільш поширене використання хаосу в пошуку даних і пов'язаних з ними полів - це виключення, що не означає подвигу. Якщо хаотичні ефекти є, але невиявлені, їх вплив на підприємство з видобутку даних може бути важко перемогти. Подумайте, наскільки легко звичайна нейронна сітка або дерево рішень може подолати, здавалося б, безглузді виходи хаотичного аттрактора, або як раптові сплески вхідних значень, безумовно, можуть бентежити регресійний аналіз і можуть бути віднесені до поганих зразків чи інших джерел помилок. Рідкість хаотичних ефектів серед усіх функцій та діапазонів введення означає, що дослідженню їх буде сильно деприортизовано експериментатори.
Методи виявлення хаосу в результатах обміну даними
Деякі заходи, пов'язані з теорією хаосу, корисні при виявленні аперіодичних ефектів, наприклад, Ентропія Колмогорова та вимога, щоб фазовий простір виявляв позитивний показник Ляпунова. Вони знаходяться в контрольному списку виявлення хаосу [2], наведеному в прикладній теорії хаосу А.Б.Амбеля, але більшість з них не корисні для наближених функцій, наприклад, показника Ляпунова, який вимагає певних функцій із відомими межами. Загальний порядок, який він окреслює, може бути корисним при обробці даних; Метою Амбел є врешті-решт програма «контролю хаосу», тобто усунення аферидуючих впливів, що заважають. [3] Інші методи, такі як обчислення розмірів коробки та кореляційні розміри для виявлення дробових розмірів, що призводять до хаосу, можуть бути більш практичними в застосуванні для вилучення даних, ніж Ляпунов та інші у його списку. Іншою ознакою хаотичних ефектів є наявність подвійних (або утроєних і поза ними) моделей у функціональних виведеннях, що часто передує аперіодичній (тобто "хаотичній") поведінці на фазових діаграмах.
Диференціація тангенціальних застосувань
Цей випадок первинного використання повинен відрізнятися від окремого класу застосувань, які стосуються лише тангенціальної теорії хаосу. При більш детальному огляді перелік "потенційних застосувань", який я представив у своєму запитанні, фактично майже складався з ідей щодо використання понять, від яких залежить теорія хаосу, але які можуть застосовуватися самостійно за відсутності апериодичної поведінки (виключається подвоєння періоду). Нещодавно я думав про використання нової потенціальної ніші, що генерує аперіодичну поведінку для виведення нейронних мереж з місцевих мінімумів, але це теж належить до переліку дотичних застосувань. Багато з них були виявлені або розроблені в результаті досліджень науки про хаос, але можуть бути застосовані і в інших галузях. Ці "дотичні програми" мають лише нечіткі зв'язки один з одним, але утворюють окремий клас, відокремлений жорсткою межею від основного випадку використання теорії хаосу при видобутку даних; перший використовує певні аспекти теорії хаосу без аперіодичних закономірностей, а останній присвячений виключно виключенню хаосу як ускладнюючого чинника результатів видобутку даних, можливо, з використанням таких передумов, як позитивність показника Ляпунова та виявлення подвоєння періоду . Якщо ми розмежовуємо теорію хаосу та інші поняття, в яких вона правильно використовується, неважко помітити, що застосування перших притаманне лише звичайним науковим дослідженням. Дійсно є вагомі підстави радіти потенційним застосуванням цих вторинних концепцій за відсутності хаосу, але також привід турбуватися про забруднюючі наслідки несподіваної аперіодичної поведінки на видобуток даних, коли він присутній. Такі випадки будуть рідкісними, але ця рідкість також може означати, що вони залишаться непоміченими. Метод Ҫambel, можливо, буде корисний для вирішення подібних проблем.
[1] С. 143-147, Alligood, Kathleen T .; Зауер, Тім Д. та Йорк, Джеймс А., 2010, Хаос: Вступ до динамічних систем, Спрингер: Нью-Йорк. [2] С. 208-213, Ҫambel, AB, 1993, прикладна теорія хаосу: парадигма складності, Academic Press, Inc: Бостон. [3] с. 215, Ҫambel.