Інтернет, масштабовані статистичні методи


12

На це надихнула Ефективна лінійна регресія в Інтернеті , що мені здалося дуже цікавою. Чи є тексти чи ресурси, присвячені великомасштабним статистичним обчисленням, за допомогою яких обчислення з наборами даних занадто великі, щоб вміститися в основній пам'яті, і, можливо, занадто різноманітні, щоб ефективно підпробовувати. Наприклад, чи можна встановити моделі змішаних ефектів в Інтернеті? Хтось вивчав наслідки заміни стандартних методик оптимізації 2-го порядку для MLE на методики 1-го порядку, SGD?


Я думаю, що відповідь "так". Звичайно, тут є дещо питання визначення. Те, що одна людина вважає "великомасштабним", іноді дуже відрізняється від інших. Моє враження, що, наприклад, багато наукових дослідників вважають набір даних Netflix "великомасштабним", тоді як у багатьох промислових умовах це вважатиметься "непоганим". Що стосується методів оцінки, як правило, з дуже великими даними, обчислювальна ефективність збільшує статистичну ефективність. Наприклад, метод моментів у багатьох випадках виконує (майже) так само, як і MLE, в цих налаштуваннях і може бути набагато простіше обчислити.
кардинал

2
Ви також можете ознайомитись з практикумом з алгоритмів сучасних наборів масивних даних (MMDS). Він молодий, але приваблює досить вражаючий набір ораторів на інтерфейсах статистики, техніки та інформатики, а також між науковими колами та галузями.
кардинал

Минуло лише кілька десятиліть, оскільки більшість наборів даних були занадто великими, щоб вміститися в основній пам'яті, і вибір алгоритмів, використовуваних у ранніх статистичних програмах, це відображав це. Такі програми не мали можливості для моделей зі змішаними ефектами.
onestop

Чи можете ви обчислити статистику для набору даних? скажімо, наприклад, суму чи середні показники даних?
ймовірністьлогічний

Відповіді:


5

Ви можете заглянути в проект Vowpal Wabbit від Джона Лангфорда в Yahoo! Дослідження. Це он-лайн учень, який робить спеціалізований спуск на градієнті за кількома функціями втрат. VW має деякі вбивчі особливості:

  • Встановлюється на Ubuntu тривіально, з "sudo apt-get install vowpal-wabbit".
  • Використовує хеш-трюк для серйозно величезних просторів.
  • Особливі особливості адаптивних ваг.
  • Найголовніше, що існує активний список розсилки та підключення спільноти до проекту.

Книга Bianchi & Lugosi Прогнозування, навчання та ігри дає міцну теоретичну основу для онлайн-навчання. Важке читання, але воно того варте!

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.