Гарне питання. @ G5W стоїть на правильному шляху, посилаючись на статті Вей-Інь Лох. У статті Лоха обговорюються статистичні передумови дерев рішень і, власне, простежується їхнє місце в роботі Фішера (1936) про дискримінантний аналіз - по суті, регресія, що класифікує кілька груп як залежну змінну - і звідти через AID, THAID, CHAID та CART-моделі.
Коротка відповідь полягає в тому, що перша стаття, яку я зміг знайти, що розробляє підхід до «дерева рішень», датується 1959 роком, і британський дослідник Вільям Белсон у праці під назвою « Відповідність і прогнозування принципу біологічної класифікації» ( JRSS , Серія C, Прикладна статистика, т. 8, № 2, червень 1959 р., Стор. 65-75), реферат якого описує його підхід як один із узгодження вибірки населення та розробки критеріїв для цього:
У цій статті доктор Белсон описує методику зіставлення популяційних вибірок. Це залежить від комбінації емпірично розроблених прогнозів, щоб дати найкращий доступний прогнозний або сумісний склад. Принцип, що лежить в основі, досить відмінний від принципу множинної кореляції.
Відповідь "довгий" полягає в тому, що тут виглядають актуальні інші, навіть більш ранні потоки думок. Наприклад, прості когортні розподіли за віком, використовувані в актуарних таблицях смертності, пропонують основу для роздумів про рішення, що датуються кількома століттями. Можна також стверджувати, що зусилля, пов'язані з вавилонянами, використовували квадратичні рівняння, які були нелінійними у змінних (не в параметрах, http://www-history.mcs.st-and.ac.uk/HistTopics/Quadratic_etc_equations. html ) мають актуальність, принаймні, наскільки вони передбачають параметричні моделі логістичного зростання (я визнаю, що це розтягненнякоментар, будь ласка, читайте далі для повнішої мотивації цього). Крім того, філософи давно визнають і теоретизують існування ієрархічно упорядкованої якісної інформації, наприклад, книги Аристотеля про категорії . Тут є ключовим поняттям та припущенням про ієрархію . Інші відповідні, набагато пізніші відкриття просувались за межі 3-D евклідового простору в розвитку нескінченного Девіда Гільберта, Гільбертапростір, комбінаторика, відкриття у фізиці, що стосуються 4-D простору Міньковського, відстань і час, статистична механіка, що стоїть за теорією особливої відносності Ейнштейна, а також інновації в теорії ймовірності, що стосуються моделей ланцюгів, переходів і процесів Маркова. Сенс у тому, що між будь-якою теорією та її застосуванням може бути значне відставання - у цьому випадку відставання між теоріями про якісну інформацію та розробками, пов'язаними з їх емпіричною оцінкою, прогнозуванням, класифікацією та моделюванням.
Найкраща здогадка полягає в тому, що ці події можуть бути пов’язані з історією зростаючої витонченості статистиків, переважно в 20-х роках, при розробці моделей, використовуючи типи масштабів, які не є постійними (наприклад, номінальна або, простіше, категорична інформація), підраховують моделі даних (Пуассон), перекласифіковані таблиці дій на випадок надзвичайних ситуацій, непараметрична статистика без розподілу, багатовимірне масштабування (наприклад, Дж. Г. Керролл, серед інших), моделі з якісно залежними змінними, такі як двогрупова логістична регресія, а також аналіз відповідності (переважно в Голландії та Франції у 70-80-ті роки).
Існує широка література, яка обговорює і порівнює дві групові логістичні регресії з двома груповими дискримінантними аналізами і, за цілком номінальними ознаками, знаходить їх надання рівноцінних рішень (наприклад, Багатоваріантний аналіз Діллона та Гольдштейна , 1984).
У статті Й. С. Креймера про історію логістичної регресії ( The History of Logistic Regression , http://papers.tinbergen.nl/02119.pdf ) описано, що вона виникає з розвитком універсальної, логістичної функції або класичної кривої S-подібної форми :
Виживання терміну логістика та широке застосування пристрою були визначально особистими історіями та індивідуальними діями кількох науковців ...
Детерміновані моделі логістичної кривої зародилися в 1825 р., Коли Бенджамін Гомперц ( https://en.wikipedia.org/wiki/Benjamin_Gompertz ) опублікував документ, що розробляє першу справді нелінійну логістичну модель (нелінійна в параметрах, а не лише змінні, як у вавилоняни) - модель і крива Гомперца.
Я б припустив, що ще однією важливою ланкою цього ланцюга, що вела до винаходу дерев рішень, була робота соціолога Колумбії Пола Лазарсфельда над моделями латентної структури. Його робота розпочалася в 30-х роках, продовжилася під час Другої світової війни з його контентним аналізом німецьких газет для зароджуваних ОСС (пізніше ЦРУ, про що говорилося в книзі Дж. Найсбета Мегатрендс ) і нарешті опубліковано в 1950 році. Андерсен описує це таким чином ( Латентний аналіз структури: Опитування , Ерлінг Б. Андерсен, Скандинавський журнал статистики , т. 9, № 1, 1982, с. 1-12):
Фундамент класичної теорії латентного аналізу структури був розроблений Полом Лазарсфельдом у 1950 році в дослідженні етноцентризму американських солдатів під час Другої світової війни. Лазарсфельд був зацікавлений насамперед у розробці концептуальної основи моделей латентної структури ... Статистичні методи, розроблені Лазарсфельдом, були, проте, досить примітивними ... Рання спроба отримати ефективні методи оцінки та процедури випробувань була зроблена колегою Лазарсфельда з Колумбійського університету , TW Андерсон, який у статті ( Psychometrika , березень 1954, том 19, випуск 1, с. 1–10, про оцінку параметрів при латентному аналізі структури), розробив ефективний метод оцінки параметрів моделі прихованого класу ... Для того, щоб запровадити рамку (моделей латентного класу), ми коротко окреслимо основні поняття ... та використаємо нотаційну систему, розроблену значно пізніше Гудманом (1974a) ... Дані наводяться у вигляді декількох таблиць на випадок надзвичайних ситуацій ...
Тут варто зробити корисну відмінність, оскільки це може бути пов'язано з прогресуванням від AID до CHAID (пізніше CART), між моделями на основі таблиць на випадок надзвичайних ситуацій (всі змінні в моделі номінально масштабуються) та більш новими моделями латентного класу (докладніше точно, кінцеві моделі сумішей на основі "сумішей" масштабів та розподілів, наприклад, Kamakura та Russell, 1989, ймовірнісна модель вибору для сегментації ринку та структури еластичності) у тому, як вони створюють залишки моделі. Для старих моделей таблиць на випадок обліку комірок, притаманних цілком перехресній таблиці, було покладено в основу "реплікацій" і, отже, неоднорідності залишків моделі, що використовуються при розподілі на класи. З іншого боку, новітні моделі сумішей покладаються на неодноразові заходи в рамках одного суб'єкта як основи для розподілу гетерогенності в залишках. Ця відповідь ніщо пропонує прямий зв’язок між моделями латентного класу та деревами рішень. Відповідність AID та CHAID може бути узагальнена в статистичних даних, що використовуються для оцінки моделей, AID використовує безперервний розподіл F, тоді як CHAID використовує розподіл chi-квадрата, відповідний для категоричної інформації. Швидше за все в їх аналізі та моделюванні таблиць на випадок надзвичайних ситуацій, на мій погляд, важливі частини головоломки чи розповіді, що ведуть до розробки дерев рішень, поряд з багатьма іншими новинками, які вже були відзначені.
CHAID - це пізніша розробка, вперше запропонована в 1980 р. Докторською дисертацією Південноафриканського регіону Гордоном Кассом, як викладено в цій статті Вікі про CHAID ( https://en.wikipedia.org/wiki/CHAID ). Звичайно, КАРТ з'явився через кілька років у 80-х разом з Брейманом та ін., Тепер відомою книгою Класифікація та регресійні дерева .
"ДОПОМОГА", "ЧАЙД" та "КАРТКА" - всі ієрархічно розташовані структури, подібні до дерева, як оптимальне зображення реальності. Вони просто займаються цим, використовуючи різні алгоритми та методи. Для мене наступними кроками в цьому прогресивному ланцюжку інновацій є поява гетерархічних теорій структури. Як визначено в цій статті Wiki, гетерархії "є системою організації, де елементи організації є нерозподіленими (неієрархічними) або де вони мають потенціал для ранжування різними способами" ( https: //en.wikipedia .org / wiki / Гетерархія або для глибшого, більш філософського погляду на гетерархію див. Контопулос, Логіка соціальної структури). З емпіричної точки зору аналіз та моделювання мережевих структур найбільш репрезентативні для цього історичного розвитку в розумінні структури (наприклад, книга Фрімена «Розвиток аналізу соціальних мереж» ). Хоча багато аналітиків мережі намагатимуться застосувати ієрархічне розташування в результуючій мережі, це скоріше вираження вроджених та несвідомих припущень, ніж це твердження про емпіричну реальність мультиплексної структури мережі в складному світі.
Ця відповідь наводить на думку, що дуга еволюції, що вела до розробки дерев рішень, створювала нові запитання або невдоволення існуючими "найсучаснішими" методами на кожному етапі чи фазі процесу, вимагаючи нових рішень та нових моделей. У цьому випадку невдоволення можна побачити в обмеженості моделювання двох груп (логістична регресія) та визнанні необхідності розширити ці рамки на більш ніж дві групи. Невдоволення непредставницькими припущеннями, що лежать в основі нормального розподілу (дискримінантний аналіз або AID), а також порівняння з відносною "свободою", яка може бути виявлена при використанні непараметричних припущень і моделей без розподілу (наприклад, CHAID і CART).
Як передбачається, джерела дерев рішень майже напевно мають давню історію, яка налічує століття і географічно розсіяна. Кілька потоків людської історії, науки, філософії та думки простежуються у викладанні розповіді, що веде до розвитку багатьох існуючих сьогодні ароматів дерев рішень. Я першим визнаю суттєві обмеження мого короткого ескізу цієї історії.
/ ** Додатки ** /
Ця стаття 2014 року в новому вченому під назвою Чому ми любимо організовувати знання на деревах? ( https://www.newscientist.com/article/mg22229630-800-why-do-we-love-to-organise-knowledge-into-trees/ ), це огляд книги гуру візуалізації даних Мануеля Ліми " Книга Дерева, які простежують тисячоліття, використовують дерева як візуалізацію та мнемічну допомогу для знань. Здається, мало питання, але світські та емпіричні моделі та графіки, притаманні таким методам, як AID, CHAID та CART, являють собою продовження еволюції цієї споконвічно релігійної традиції класифікації.
У цьому відео (розміщеному в Інтернеті Salford Systems, реалізаторами програмного забезпечення CART), «Данина Лео Брейману» , Брейман розповідає про розвиток свого мислення, що призвело до методології CART. Все почалося зі стіни, обклеєної силуетами різних лінкорів епохи Другої світової війни.
https://www.salford-systems.com/videos/conferences/cart-founding-fathers/a-tribute-to-leo-breiman?utm_source=linkedin&utm_medium=social&utm_content=3599323
Читаючи вступ до Теорії кінцевих та нескінченних графіків Деніса Коніга 1936 р ., Яку широко сприймають як надання першого суворого, математичного обґрунтування для поля, яке раніше розглядалося як джерело розваг та загадок для дітей, Тутт зазначає (стор. 13) цю главу. 4 (початок на стор. 62) книги Коніга присвячено деревам в теорії графів. Пояснення Татте щодо визначення дерева Кеніга щодо дерева: "де" ациклічний "графік - це графік без схеми, дерево - кінцево пов'язаний ациклічний графік ... іншими словами, у дерева є один і лише один шлях від дана вершина іншій ... "Для мене (і я ні теоретик графіків, ні математик) це говорить про те, що теорія графа та його попередники в аналізі Сітсуса або Веблена Пуанкаре " лекції з комбінаторної топології, можливо, забезпечили ранні інтелектуальні та математичні попередники для того, що згодом стало темою для статистиків.
Перше Дерево Знань широко відноситься до неоплатонічного філософа Порфірія, який близько 270 р. До н.е. написав Вступ до логіки, який використовував метафоричне дерево для опису та організації знань ... http://www.historyofinformation.com/expanded.php? id = 3857
Щойно виявлено ще більш раннє посилання на Древо Знань у Книзі Буття в Біблії, про яке говорилося в цій статті Wiki ... https://en.wikipedia.org/wiki/Tree_of_life_(biblical) . Генезис, ймовірно, сягає 1400 р. До н.е. на основі цього посилання ... https://www.biblica.com/bible/bible-faqs/when-was-the-bible-written/ Незалежно, Книга Буття вийшла за багато століть до Порфирій.
Classification and Regression Trees Leo Breiman, Jerome Friedman, Charles J. Stone, R.A. Olshen (1984)
але це, безумовно, було не найдавнішим. Вей-Інь Ло з університету Вісконсіна писав про історію дерев рішень. Ось документ і кілька слайдів з історії.