Які алгоритми машинного навчання можна масштабувати за допомогою hadoop / map-reduct


9

Масштабовані алгоритми машинного навчання, схоже, гудуть сьогодні. Кожна компанія не обробляє великих даних . Чи є підручник, в якому йдеться про те, які алгоритми машинного навчання можна масштабувати, використовуючи паралельні архітектури, такі як Map-Reduce, а які не можуть? Або якісь відповідні папери?

Відповіді:



4

Vowpal Wabbit, дуже швидка програма машинного навчання, орієнтована на онлайн-навчання за градієнтом, може використовуватися з Hadoop: http://arxiv.org/abs/1110.4198 Хоча я ніколи цього не використовував. Якщо я правильно це розумію, він дійсно використовує Hadoop лише для надійності та надання даних процесам Vowpal Wabbit. Він використовує щось на зразок AllReduce MPI для більшості комунікацій.


4

Як зазначають Джиммі Лін та Кріс Дайер у першій главі книги " Інтенсивний обмін текстами з MapReduce" на великих масштабах даних, продуктивність різних алгоритмів сходяться таким чином, що відмінності в продуктивності практично зникають. Це означає, що, враховуючи достатньо великий набір даних, алгоритм, який ви хочете використовувати, є той, який обчислюється менш дорого. Відмінності в роботі між алгоритмами мають значення лише на менших масштабах даних.

Але , мабуть , їхня книга (зв'язана вище) та видобуток масивних наборів даних Ананда Раджарамана, Юре Лесковець та Джефрі Д. Уллмана - це, мабуть, дві книги, які ви хочете перевірити, особливо, якщо вони безпосередньо стосуються MapReduce для обміну даними.


1
"... в великих масштабах продуктивність різних алгоритмів сходяться ..." Я цього не знав. Дякуємо за це корисне розуміння. Крім того, я натрапив на "Майнінг масивних наборів даних" і вважав це дуже корисним. Подивимось і на іншу книгу.
Нік


1

Ніхто не згадав наступний документ - http://papers.nips.cc/paper/3150-map-reduce-for-machine-learning-on-multicore.pdf (Ендрю Нґ - один з авторів)

Сам папір призначений для багатоядерних машин, але по суті йдеться про переробку проблем машинного навчання, щоб вони відповідали схемі зменшення карти і могли використовуватися для кластера комп'ютерів. (для того, щоб побачити, чому це взагалі не є хорошою ідеєю, ви можете прочитати цей документ - http://arxiv.org/pdf/1006.4990v1.pdf . Він має хороший огляд).


Крім того, Махут був спробою впровадити згаданий мною документ Ендрю Нґ.
user48654

0

Масштабування машинного навчання : паралельний і розподілений підходи - чудова книга Джона Ленгфорда та ін. ін. в якому обговорюються паралельні реалізації контрольованих та непідконтрольних алгоритмів. У ньому йдеться про MapReduce, ансамблі дерева рішень, паралельні K-засоби, паралельні SVM, поширення віри та AD-LDA.

https://www.amazon.com/Scaling-Machine-Learning-Distributed-Approaches/dp/0521192242

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.