Протягом багатьох років ходять чутки, що Google використовує всі доступні функції для побудови своїх алгоритмів прогнозування. На сьогоднішній день жодних заперечень, пояснень чи дописів не з’явилися, які б прояснили та / або спростували цю чутку. Навіть їх опубліковані патенти не допомагають зрозуміти. Як наслідок, ніхто, зовнішній для Google, не знає, що вони роблять, наскільки мені відомо.
/ * Оновлення у вересні 2019 року євангеліст Google Tensorflow продовжив свою презентацію, заявивши, що інженери Google регулярно оцінюють понад 5 мільярдів параметрів для поточної версії PageRank . * /
Як зазначає ОП, однією з найбільших проблем прогнозного моделювання є співвідношення між тестуванням класичної гіпотези та ретельним конкретизацією моделі проти чистого обміну даними. Класично навчені можуть бути досить догматичними щодо необхідності "суворості" в дизайні та розробці моделі. Справа в тому, що, зіткнувшись з величезною кількістю передбачувачів кандидатів та декількома можливими цілями або залежними змінними, класична структура не працює, не містить і не дає корисних рекомендацій. Численні останні документи виокремлюють цю дилему з чаттопадхей та блискучого документу Ліпсона: "Розбиття даних: Розкриття хованого порядку в даних" http://rsif.royalsocietypublishing.org/content/royinterface/11/101/20140826.full.pdf
Основне вузьке місце полягає в тому, що сьогодні більшість алгоритмів порівняння даних покладаються на людського експерта, щоб визначити, які "особливості" даних є релевантними для порівняння. Тут ми пропонуємо новий принцип оцінки схожості між джерелами довільних потоків даних, не використовуючи ні доменних знань, ні навчання.
До минулорічного документу AER про проблеми прогнозування політики Kleinberg та ін. https://www.aeaweb.org/articles?id=10.1257/aer.p20151023, яка робить видобуток даних та прогнозування корисними інструментами в розробці економічної політики, наводячи випадки, коли "висновок про причину не є центральним або навіть необхідним. "
Справа в тому, що більшим питанням у розмірі 64 000 доларів є широкий зміст мислення та викликів до класичної системи перевірки гіпотез, яка міститься , наприклад, у цьому симпозіумі Edge.org щодо "застарілого" наукового мислення https://www.edge.org/ відповіді / що - наукова ідея - готова до виходу на пенсію , а також ця нещодавня стаття Еріка Бейнхокера про "нову економіку", в якій представлені деякі радикальні пропозиції щодо інтеграції широко різних дисциплін, таких як поведінкова економіка, теорія складності, прогнозована модель розробка, теорія мережі та портфеля як платформа для впровадження та прийняття політики https://evonomics.com/the-deep-and-profound-changes-in-economics-thinking/Потрібно говорити, що ці питання виходять далеко за рамки просто економічних проблем і говорять про те, що ми зазнаємо кардинального зрушення в наукових парадигмах. Змінюються погляди є такими ж фундаментальними, як і відмінність між редукціоністичним, Бритва Оккама, як побудова моделей проти експансивного Принципу Поваги Епікура або багаторазових пояснень, які приблизно зазначають, що якщо кілька висновків щось пояснюють, зберігайте їх усі ... https: // en. wikipedia.org/wiki/Principle_of_plenitude
Звичайно, такі хлопці, як Бейнхокер, абсолютно не обтяжені практикою, що стосується траншей щодо прикладних, статистичних рішень цієї парадигми, що розвивається. Розмірковуючи про нестабільні питання ультрависокого розмірного варіабельного вибору, ОП є відносно неспецифічним щодо життєздатних підходів до побудови моделі, які можуть використовувати, наприклад, Lasso, LAR, ступінчасті алгоритми або "слонові моделі", які використовують всю наявну інформацію. Реальність полягає в тому, що навіть з AWS або суперкомп'ютером ви не можете одночасно використовувати всю наявну інформацію - просто не вистачає оперативної пам’яті, щоб все це завантажити. Що це означає? наприклад, виявлення NSF у складних або масових наборах даних: загальні статистичні теми"розподілити та перемогти" алгоритми для масового обміну даними, наприклад, статті Ванґ та ін., Огляд статистичних методів та обчислення великих даних http://arxiv.org/pdf/1502.07989.pdf , а також Leskovec та ін книга Майнінг масивних наборів даних http://www.amazon.com/Mining-Massive-Datasets-Jure-Leskovec/dp/1107077230/ref=sr_1_1?ie=UTF8&qid=1464528800&sr=8-1&keywords=Mining+of+Massive+Datasets
Зараз існує буквально сотні, якщо не тисячі праць, які розглядають різні аспекти цих проблем, і всі пропонують аналітичні двигуни, що відрізняються різними характеристиками, як їх ядро від алгоритмів «розділити і перемагай»; непідконтрольні моделі "глибокого навчання"; теорія випадкових матриць, застосована до масивної побудови коваріації; Байєсові тензорні моделі до класичної, контрольованої логістичної регресії тощо. П'ятнадцять років або більше тому дебати в основному були зосереджені на питаннях щодо відносних достоїнств ієрархічних байесівських рішень та частофілістських кінцевих моделей сумішей. У документі, присвяченому цим питанням, Ainslie та ін. http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.197.788&rep=rep1&type=pdfдійшов висновку, що різні теоретичні підходи на практиці дають значною мірою еквівалентні результати, за винятком проблем, пов'язаних із розрідженими та / або великомірними даними, де моделі НВ мали перевагу. Сьогодні, з появою методів обліку D&C, будь-які арбітражні моделі НВ, можливо, історично користувалися, усуваються.
Основна логіка цих методів вирішення проблем науково-дослідних технологій - це, в основному, розширення відомої лісової техніки Бреймана, яка спиралася на завантаження та перекомпонування спостережень та особливостей. Брейман зробив свою роботу в кінці 90-х на одному процесорі, коли масивні дані означали кілька десятків концертів і пару тисяч функцій. На сьогодні масово паралельних багатоядерних платформах можна запустити алгоритми, аналізуючи терабайти даних, що містять десятки мільйонів функцій, будуючи мільйони міні-моделей "RF" за кілька годин.
З усього цього виникає безліч важливих питань. Слід побоюватися з приводу втрати точності через наближений характер цих обхідних шляхів. Цю проблему вирішили Чен та Сі в своїй роботі, підхід "Сплит-і-конвер" для аналізу надзвичайно великих даних http://dimacs.rutgers.edu/TechnicalReports/TechReports/2012/2012-01.pdf, де вони роблять висновок що наближення невідмінно відрізняються від моделей "повної інформації".
Друге питання, яке, наскільки мені відомо, не було належним чином розглянуто в літературі, пов'язане з тим, що робиться з результатами (тобто "параметрами") потенційно мільйонів прогнозних міні-моделей, коли обходиться проблема були зведені та узагальнені. Іншими словами, як можна виконати щось таке просте, як «забити» нові дані за допомогою цих результатів? Чи слід зберігати та зберігати коефіцієнти міні-моделі чи просто перезапускати алгоритм d & c на нові дані?
У своїй книзі « Numbers Rule Your World» Кайзер Фунг описує дилему, з якою Netflix зіткнувся, коли був представлений ансамблем із всього 104 моделей, переданих переможцям їхнього конкурсу. Переможці дійсно мінімізували MSE проти всіх інших конкурентів, але це призвело лише до покращення точності на кілька десяткових знаків за 5-бальною, оціночною шкалою типу Лікерта, використовуваною їх системою рекомендування фільмів. Крім того, необхідне технічне обслуговування ІТ для цього ансамблю моделей коштує набагато дорожче, ніж будь-яка економія, що спостерігається від «покращення» точності моделі.
Тоді виникає ціле питання про те, чи можлива "оптимізація" з інформацією такого масштабу. Наприклад, Еммануель Дерман, фізик та фінансовий інженер, у своїй книзі « Моє життя як квант» припускає, що оптимізація є міфом нестійким, принаймні у фінансовій інженерії.
Нарешті, важливі питання щодо відносної важливості функції з великою кількістю функцій ще не вирішені.
На питання, що стосуються необхідності змінного вибору та нових викликів, що відкриваються нинішніми проблемами, епікурейські шляхи вирішення ще залишаються невирішеними. Суть полягає в тому, що зараз ми всі вчені-дані.
**** EDIT ***
Список літератури
Chattopadhyay I, Lipson H. 2014 Розбиття даних: виявлення прихованого порядку в даних. JR Soc. Інтерфейс 11: 20140826.
http://dx.doi.org/10.1098/rsif.2014.0826
Кляйнберг, Йон, Єнс Людвіг, Сендхіл Муллайнатан і Зіад Обермейер. 2015. «Проблеми політики прогнозування». Американський економічний огляд, 105 (5): 491-95. DOI: 10.1257 / aer.p20151023
Edge.org, 2014 Щорічне запитання: ЩО НАУЧНА ІДЕЯ ГОТОВА ДО ПОВЕРНЕННЯ?
https://www.edge.org/responses/what-scientist-idea-is-ready-for-retirement
Ерік Бейнхокер, Як глибокі зміни в економіці роблять ліві проти правильних дебати нерелевантними, 2016 р., Evonomics.org.
https://evonomics.com/the-deep-and-profound-changes-in-economics-thinking/
Епікур принципом численних пояснень: зберігайте всі моделі. Вікіпедія
https://www.coursehero.com/file/p6tt7ej/Epicurus-Principle-of-Multiple-Explanations-Keep-all-models-that-are-consistent/
NSF, «Відкриття у складних або масових наборах даних: загальні статистичні теми», практикум, що фінансується Національним науковим фондом, 16-17 жовтня 2007 року
https://www.nsf.gov/mps/dms/documents/DiscoveryInComplexOrMassiveDatasets.pdf
Статистичні методи та обчислення великих даних, робочий документ Chun Wang, Ming-Hui Chen, Elizabeth Schifano, Jing Wu та Jun Yan, 29 жовтня 2015 р.
Http://arxiv.org/pdf/1502.07989.pdf
Юре Лесковець, Ананд Раджараман, Джеффрі Девід Улман, майнінг масивних наборів даних, Кембриджський університетський прес; 2 видання (29 грудня 2014 р.) ISBN: 978-1107077232
Великі зразкові коваріаційні матриці та об'ємний аналіз даних (серія Кембридж у статистичній та ймовірнісній математиці), Цзянфенг Яо, Шуронг Чжен, Чжидун Бай, Кембриджський університетський прес; 1 видання (30 березня 2015 р.) ISBN: 978-1107065178
RICK L. ANDREWS, ANDREW AINSLIE та IMRAN S. CURRIM, Емпіричне порівняння моделей вибору Logit з дискретними попереду постійними уявленнями про гетерогенність, Journal of Marketing Research, 479 Vol. XXXIX (листопад 2002 р.), 479–487
http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.197.788&rep=rep1&type=pdf
Сплит-і-завойовницький підхід для аналізу надзвичайно великих даних, Xueying Chen та Minge Xie, технічний звіт DIMACS 2012-01, січень 2012 року
http://dimacs.rutgers.edu/TechnicalReports/TechReports/2012/2012-01.pdf
Кайзер Фунг, числа керують твоїм світом: прихований вплив ймовірностей та статистика на все, що ти робиш, освіта McGraw-Hill; 1 видання (15 лютого 2010 р.) ISBN: 978-0071626538
Еммануель Дерман, Моє життя як кількість: Роздуми про фізику та фінанси, Вілі; 1 видання (11 січня 2016 р.) ISBN: 978-0470192733
* Оновлення в листопаді 2017 року *
Книга Натана Куца, 2013, Моделювання даних та наукове обчислення: Методи складних систем та великих даних - це математична та PDE орієнтована екскурсія на вибір змінних, а також методи та інструменти зменшення розмірів. Чудове ознайомлення з його мисленням за 1 годину можна знайти в цьому червні 2017 року на відео YouTube на основі даних Data Driver Discovery of Dynamical Systems and PDE . У ньому він посилається на останні події в цій галузі. https://www.youtube.com/watch?feature=youtu.be&v=Oifg9avnsH4&app=desktop