Найсучасніший досвід загального навчання за даними 69 року


16

Я намагаюся зрозуміти контекст відомої книги Міньського та Паперта «Перцептрони» 1969 року, настільки критичного для нейронних мереж.

Наскільки я знаю, інших загальних алгоритмів навчання під контролем не було, окрім персептрон: дерева рішень почали стати корисними лише наприкінці 70-х, випадкові ліси та СВМ - 90-ті. Здається, що метод джекніфа був уже відомий, але не k-крос-валідація (70-ті роки) чи завантажувальний тренд (1979?).

Вікіпедія стверджує, що класичні рамки статистики Неймана-Пірсона та Фішера все ще не погоджувалися в 50-х роках, незважаючи на те, що перші спроби описати гібридну теорію були вже в 40-х.

Тому моє запитання: якими були сучасні методи вирішення загальних проблем прогнозування з даних?


6
Логістична регресія почала використовуватись так, як сьогодні, наприкінці 70-х див. Cramer, JS (2002). "Витоки логістичної регресії", с. 12, paper.tinbergen.nl/02119.pdf
Tim

Лінійна регресія, ймовірно, є "загальним алгоритмом навчання під наглядом" і зародилася на початку 1800-х років; регрес пробіту, принаймні в якійсь формі, мабуть, виник у 1930-х роках . Ви маєте на увазі щось конкретно під "загальним" тут?
Дугал

@Dougal: просто "визнано застосовним до великої кількості проблем у різних сферах", на відміну від "призначених для вирішення конкретної проблеми". Я намагаюся зрозуміти, які методи використовували би статистик або науковець з ІП ​​у 60-х, коли стикалися з новою невідомою проблемою без попередньої роботи, коли найпростіший підхід (як, я думаю, лінійна регресія?) Не працює і тому пошук більш складних інструментів виправданий. Наприклад, випадковий ліс зараз є одним із таких алгоритмів: вони досить добре працюють на безлічі наборів даних з різних полів.
liori

Так, звісно. Можливо, варто відзначити, що регресія пробіту - це, мабуть, краща модель класифікації загального призначення, ніж оригінальні перцептрони. Чи використовувався він у той час, я не знаю. У той час перцептрони вважалися різними, тому що вони були поєднані з оптимізаційним алгоритмом оптимізації SGD, який, ймовірно, робив їх більш масштабованими для комп'ютерів того часу, ніж пробіт, хоча, звичайно, сьогодні ми розуміємо, що вибір не залежить.
Дугал

1
Для всіх, хто все ще цікавиться цією темою: я знайшов цікаве дослідження з галузі соціології науки щодо теми суперечок перцептрону 60-х років: Олазаран, «Офіційна історія суперечливості рецептів». Текст не відповідає на запитання, подане тут, але дає соціологічний контекст для книги Міньського та Паперта - той, який мені здається зараз важливішим, ніж власне стан науки.
liori

Відповіді:


12

Мені було цікаво з цього приводу, тому я кілька копав. Я був здивований, виявивши, що впізнавані версії багатьох поширених алгоритмів класифікації вже були доступні в 1969 р. Або після цього. Посилання та цитати наведені нижче.

Варто зазначити, що дослідження ШІ не завжди були так зосереджені на класифікації. Був великий інтерес до планування та символічних міркувань, які вже не в моді, а мічені дані було набагато складніше знайти. Не всі ці статті, можливо, були також широко доступні і тоді: наприклад, прото-робота SVM здебільшого публікувалася російською мовою. Таким чином, це може переоцінити, наскільки середній вчений знав про класифікацію в 1969 році.


Дискримінантний аналіз

У статті 1936 р. У « Аналах Євгеніки» Фішер описав процедуру пошуку лінійної функції, яка розмежовує три види квіток райдужної оболонки, виходячи з їх розмірів пелюсток і чаша. У цій статті згадується, що Фішер вже застосував подібну методику для прогнозування статі нижньої щелепи людини (щелепних кісток), розкопаних в Єгипті, у співпраці з Е. Мартіном та Карлом Пірсоном ( jstor ), а також в окремому проекті краніального вимірювання. з міс Мілдред Барнард (яку я не зміг відстежити).

Логістична регресія

Сама логістична функція відома з 19 століття, але здебільшого як модель для насичення процесів, таких як приріст населення чи біохімічні реакції. Тім посилається на статтю Дж. С. Креймера, яка є приємною історією його раннього часу. Однак до 1969 року Кокс опублікував перше видання Аналіз бінарних даних . Я не зміг знайти оригінал, але пізніше видання містить цілу главу про використання логістичної регресії для проведення класифікації. Наприклад:

У дискримінаційному аналізі основне поняття полягає в тому, що є дві окремі популяції, визначені , як правило, дві суттєво різні групи, такі як два види бактерій або рослин, два різні види продукту, два чіткі, але досить схожі препарати, і так далі .... По суті, у фокусі дискримінаційного аналізу стоїть питання: як два розподіли найбільш різко відрізняються? Часто це ставиться у більш конкретну форму наступним чином. Даний новий вектор x ' від особи невідомого y . Що ми можемо сказати про це у ….у=0,1х'уу

Найближчі сусідик

кк

Нейронні мережі

Розенблат опублікувала технічний звіт , що описує персептрон в 1957 році і пішла за ним з книгою , Принципами нейродинамики в 1962 році Continuous версії зворотного поширення було приблизно з початку 1960 - х років, включаючи роботу Келлі , Брайсон і Брайсон & Ho (переглянуту в 1975 р., Але оригінал - з 1969 р . Однак він не застосовувався до нейронних мереж трохи пізніше, а методи тренування дуже глибоких мереж набагато пізніші. Ця стаття в науковій програмі про глибоке навчання містить більше інформації.

Статистичні методи

Я підозрюю, що використання Правила Байєса для класифікації було виявлено та повторно відкрито багато разів - це цілком природний наслідок самого правила. Теорія виявлення сигналів розробила кількісну основу для визначення того, чи є даний вхід «сигналом» чи шумом. Деякі з них вийшли з радіолокаційних досліджень після Другої світової війни, але вони були швидко адаптовані для перцептивних експериментів (наприклад, Green and Swets ). Я не знаю, хто виявив, що припустити незалежність між провісниками добре, але робота з початку 1970-х років, здається, використала цю ідею, як узагальнено в цій статті . До речі, ця стаття також вказує на те, що Наївного Байєса колись називали "ідіотським Бейсом"!

Підтримка векторних машин

У 1962 році Вапник і Червоненкіс описали "Узагальнений алгоритм портрета" ( жахливе сканування, вибачте ), який виглядає як особливий випадок підтримуючої векторної машини (або насправді однокласного SVM). Червоненкіс написав статтю під назвою "Рання історія допоміжних векторних машин", в якій детальніше описує це та подальшу роботу. Хитрість ядра (ядер в якості внутрішніх продуктів) був описаний Айзерман, Браверман і Розоноер в 1964 році svms.org має трохи більше про історію машини опорних векторів тут .


2
Аналіз часових рядів також вирішував деякі цікаві проблеми. Фільтри ARMA та Kalman зробили непоганий пробіг у 50-60-х.
EngrStudent

1
Цікаво! Я не знаю майже стільки про це, чи про його історію, але я б із задоволенням підтримав відповідь, якщо ви написали його!
Метт Крауз

3

ВІДПОВІДАЛЬНІСТЬ : Ця відповідь неповна, але я не маю часу зробити її актуальною зараз. Я сподіваюся, що працювати над цим пізніше цього тижня.


Запитання:
якими були сучасні методи вирішення родових задач прогнозування за даними близько 1969 р.?

Примітка: це не повторить відмінну відповідь "Метт Крауз".

"Сучасний стан" означає "найкращий і найсучасніший", але не обов'язково зводиться до практики як галузевої норми. Навпаки, патентне законодавство США шукає "не очевидне", як це визначено "звичайним майстерністю у цій галузі". "Сучасний стан" для 1969 року, ймовірно, був укладений в патенти протягом наступного десятиліття.

Надзвичайно ймовірно, що "найкращі та найяскравіші" підходи 1969 р. Були використані або оцінені для використання в ECHELON (1) (2) . Це також покаже в оцінці іншої, цілком математично здатної наддержави епохи, СРСР. (3) Мені потрібно кілька років, щоб створити супутник, і тому можна було б також очікувати, що технологія чи вміст для наступних ~ 5 років зв'язку, телеметрії чи розвідувальних супутників, щоб показати сучасний стан 1969 року. Одним із прикладів є супутник погоди Метеор-2 запустився в 1967 році, попередній проект був завершений у 1971 році. (4) Спектрометрична та актиноміметрична інженерія корисних навантажень сповіщається можливостями обробки даних і передбачуваним "найближчим часом" обробкою даних того часу. Обробка такого роду даних є де шукати кращі практики того періоду.

Ознайомлення з "Журналом теорії та застосувань оптимізації" функціонувало кілька років, і його вміст доступний. (5) Розглянемо цю (6) оцінку оптимальних оцінок, а цю - для рекурсивних. (7)

Проект SETI, розпочатий у 1970-х роках, ймовірно, використовував більш низькі бюджетні технології та прийоми, які були старшими для тогочасних технологій. Дослідження ранніх методів SETI також може говорити про те, що вважалося провідним близько 1969 року. Одним з імовірних кандидатів є попередник " валізи SETI ". "Чемодан SETI" використовував DSP для побудови приймачів автокореляції у близько 130 к вузькосмугових каналах. Люди SETI особливо шукали аналізу спектру. Цей підхід вперше був використаний в автономному режимі для обробки даних Aricebo. Пізніше було підключено його до радіотелескопа "Арісебо" в 1978 році, щоб живі дані та результати були опубліковані того ж року . Фактичний люкс-SETI був завершений у 1982 році. Тут (посилання) це блок-схема, що показує процес.

Підхід полягав у використанні позалінійних перетворень Фур'є (~ 64 к зразків) для пошуку сегментів пропускної здатності, включаючи обробку чирп та компенсацію в реальному часі для доплерівського зсуву. Цей підхід "не новий", наводилися посилання, зокрема: див., Наприклад,

A. G. W. Cameron, Ed., 
In- terstellar Communication 
(Benjamin, New York,1963); 

I. S. Shklovskii and C. Sagan, 
In-telligent Life in the Universe 
(Holden-Day, San Francisco, 1966); 

C. Sagan, Ed., 
Communication with Extraterrestrial Intelligence 
(MIT Press, Cambridge, Mass., 1973); 
P. Morrison, J.

B. M. Oliver and J. Billingham, 
"Project Cyclops: A Design Study of a System for Detecting Extraterrestrial Intelligent Life," 
NASA Contract. Rep. CR114445 (1973). 

Інструменти, що використовуються для прогнозування наступного стану, враховуючи попередній стан, популярний на той час, включають:

  • Фільтри Кальмана (та похідні) (Вайнер, Басі, нелінійні ...)
  • Методи часових рядів (та похідні)
  • Методи частотної області (Фур'є), включаючи фільтрацію та посилення

Поширені "ключові слова" (або гучні слова) включають "суміжний, варіаційний, градієнт, оптимальний, другий порядок та сполучену".

Приміщення фільтра Калмана - оптимальне змішування даних реального світу з аналітичною та прогнозною моделлю. Їх використовували для виготовлення таких речей, як ракети, що потрапили в рухому ціль.


Дякуємо, що написали це - мені подобається підхід, керований додатком, який ви взяли!
Метт Крауз

@MattKrause - у мене ще є дещо вкластися в це. Я вважав, що підхід, керований додатком, буде служити "археології математики" в цьому випадку. Побачимо. Робота змушує мене побудувати «чемодан-SETI» і використовувати його для огляду мого людського середовища на все життя, просто для того, щоб отримати уявлення про те, що роблять інструменти 50 років.
EngrStudent
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.