Шукаємо, наприклад, інфраструктурні стеки / робочі потоки / трубопроводи


14

Я намагаюся зрозуміти, як всі компоненти "великих даних" грають разом у реальному випадку використання, наприклад, hadoop, monogodb / nosql, storm, kafka, ... Я знаю, що це досить широкий спектр інструментів, які використовуються для різних типів, але я хотів би дізнатися більше про їх взаємодію в додатках, наприклад, мислення машинного навчання для програми, webapp, інтернет-магазину.

У мене є вістори / сесія, дані про транзакції тощо і зберігаю це; але якщо я хочу робити рекомендації на ходу, я не можу запускати повільну карту / зменшувати завдання для цього у великій базі даних журналів, які у мене є. Де я можу дізнатися більше про інфраструктурні аспекти? Я думаю, що я можу використовувати більшість інструментів самостійно, але підключення їх один до одного здається мистецтвом.

Чи доступні загальнодоступні приклади / випадки використання тощо? Я розумію, що окремі трубопроводи сильно залежать від випадку використання та користувача, але саме приклади, ймовірно, будуть мені дуже корисні.


Чи проводили ви про це якісь дослідження? Є багато відео з YouTube та слайд-презентацій, що описують різні архітектури
Stanpol

1
Здравствуйте, Stanpol, дякую за вашу відповідь - я здійснив кілька початкових пошуків і нічого не знайшов, окрім AWS та клодерів - можливо, якщо ви зможете дати мені кілька пошукових термінів, які є багатообіцяючими, я з радістю візьму його звідти.
chrshmmmr

Відповіді:


14

Для того, щоб зрозуміти різноманітність способів машинного навчання можна інтегрувати у виробничі додатки, я вважаю, що корисно переглянути проекти з відкритим кодом та статті / дописи в блогах від компаній, що описують їх інфраструктуру.

Загальною темою, яку мають ці системи, є відокремлення навчання моделей від застосування моделі. У виробничих системах застосування моделі повинно бути швидким, на порядок 100 секунд мс, але є більше свободи в тому, як часто оновлювані параметри моделі (або еквівалент) потрібно оновлювати.

Люди використовують широкий спектр рішень для навчання моделей та розгортання:


7

Одне з найбільш детальних і чітких пояснень щодо створення складного конвеєра для аналітики - від людей, які працюють в Twitch .
Вони дають детальну мотивацію кожного з варіантів архітектури для збору, транспортування, координації, обробки, зберігання та запиту своїх даних.
Привабливе читання! Знайдіть його тут і тут .


Це досить приголомшливо, саме те, що я шукав! Велике спасибі :)
chrshmmmr

@chrshmmmr Запрошуємо вас. Не забудьте подати заявку / позначити як прийняте, якщо це допомогло!
чакраварти

3
Ці посилання справді здаються дуже корисними, але, знову ж таки, вони є посиланнями, і, мабуть, ми повинні прагнути підтримувати відповіді незалежно від стабільності зовнішніх джерел. Таким чином, було б непогано, якби ви могли зайняти дві-три хвилини, щоб додати, наприклад, схему з цього посилання , розмістивши її разом з коротким описом. Щось у рядках: "Наприклад, це робочий процес системи .... <img>. Додаткову інформацію можна знайти в <посилання>."
Рубенс

1
@Rubens Я запропоную трохи змінити. fgnu: Зробимо це, просто потрібно трохи більше репутації, щоб реально підтвердити відповіді, але я, безумовно, буду шанувати твій внесок :)
chrshmmmr

@Rubens Це буде не що інше, як відтворення інформації за посиланням. Я б, якби я щось відчував, додав би пояснення, яке вже було дано там.
чакраварти

3

Нещодавно Airbnb та Etsy опублікували детальну інформацію про свої робочі процеси.


1

У розділі 1 «Практична наука даних з R» ( http://www.manning.com/zumel/ ) є суттєвий розподіл процесу наукових даних, включаючи ролі команди та те, як вони стосуються конкретних завдань. Книга слідує моделям, викладеним у цій главі, посилаючись на те, на яких етапах / персоналі виконуватиметься те чи інше завдання.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.