Шукаємо, наприклад, інфраструктурні стеки / робочі потоки / трубопроводи

14

Я намагаюся зрозуміти, як всі компоненти "великих даних" грають разом у реальному випадку використання, наприклад, hadoop, monogodb / nosql, storm, kafka, ... Я знаю, що це досить широкий спектр інструментів, які використовуються для різних типів, але я хотів би дізнатися більше про їх взаємодію в додатках, наприклад, мислення машинного навчання для програми, webapp, інтернет-магазину.

У мене є вістори / сесія, дані про транзакції тощо і зберігаю це; але якщо я хочу робити рекомендації на ходу, я не можу запускати повільну карту / зменшувати завдання для цього у великій базі даних журналів, які у мене є. Де я можу дізнатися більше про інфраструктурні аспекти? Я думаю, що я можу використовувати більшість інструментів самостійно, але підключення їх один до одного здається мистецтвом.

Чи доступні загальнодоступні приклади / випадки використання тощо? Я розумію, що окремі трубопроводи сильно залежать від випадку використання та користувача, але саме приклади, ймовірно, будуть мені дуже корисні.

— chrshmmmr
джерело

Чи проводили ви про це якісь дослідження? Є багато відео з YouTube та слайд-презентацій, що описують різні архітектури

— Stanpol

1

Здравствуйте, Stanpol, дякую за вашу відповідь - я здійснив кілька початкових пошуків і нічого не знайшов, окрім AWS та клодерів - можливо, якщо ви зможете дати мені кілька пошукових термінів, які є багатообіцяючими, я з радістю візьму його звідти.

— chrshmmmr

14

Для того, щоб зрозуміти різноманітність способів машинного навчання можна інтегрувати у виробничі додатки, я вважаю, що корисно переглянути проекти з відкритим кодом та статті / дописи в блогах від компаній, що описують їх інфраструктуру.

Загальною темою, яку мають ці системи, є відокремлення навчання моделей від застосування моделі. У виробничих системах застосування моделі повинно бути швидким, на порядок 100 секунд мс, але є більше свободи в тому, як часто оновлювані параметри моделі (або еквівалент) потрібно оновлювати.

Люди використовують широкий спектр рішень для навчання моделей та розгортання:

Створіть модель, потім експортуйте та розгортайте її за допомогою PMML
- AirBnB описує їх модельне навчання R / Python та розгортання моделей PMML через OpenScoring.
- Шаблон є проект , пов'язаний з каскадирования , які можуть споживати PMML і розгортання моделей прогнозування.
Створіть модель у MapReduce та отримайте доступ до значень у спеціальній системі
- Conjecture - це проект з відкритим кодом від Etsy, який дозволяє навчатись моделям із Scalding , простішим у використанні обгорткою scala навколо MapReduce та розгортанням через Php.
- Kiji - це проект з відкритим кодом від WibiData, який дозволяє в режимі реального часу оцінювати модель (додаток), а також функціонувати для збереження даних користувачів та навчальних моделей за цими даними за допомогою Scalding.
Використовуйте онлайн-систему, яка дозволяє постійно оновлювати параметри моделі.
- Google випустив чудовий документ про онлайн-спільну фільтрацію, яку вони впровадили для вирішення рекомендацій у Новинах Google.

— j_houg
джерело

7

Одне з найбільш детальних і чітких пояснень щодо створення складного конвеєра для аналітики - від людей, які працюють в Twitch .
Вони дають детальну мотивацію кожного з варіантів архітектури для збору, транспортування, координації, обробки, зберігання та запиту своїх даних.
Привабливе читання! Знайдіть його тут і тут .

— чакраварти
джерело

Це досить приголомшливо, саме те, що я шукав! Велике спасибі :)

— chrshmmmr

@chrshmmmr Запрошуємо вас. Не забудьте подати заявку / позначити як прийняте, якщо це допомогло!

— чакраварти

3

Ці посилання справді здаються дуже корисними, але, знову ж таки, вони є посиланнями, і, мабуть, ми повинні прагнути підтримувати відповіді незалежно від стабільності зовнішніх джерел. Таким чином, було б непогано, якби ви могли зайняти дві-три хвилини, щоб додати, наприклад, схему з цього посилання , розмістивши її разом з коротким описом. Щось у рядках: "Наприклад, це робочий процес системи .... <img>. Додаткову інформацію можна знайти в <посилання>."

— Рубенс

1

@Rubens Я запропоную трохи змінити. fgnu: Зробимо це, просто потрібно трохи більше репутації, щоб реально підтвердити відповіді, але я, безумовно, буду шанувати твій внесок :)

— chrshmmmr

@Rubens Це буде не що інше, як відтворення інформації за посиланням. Я б, якби я щось відчував, додав би пояснення, яке вже було дано там.

— чакраварти

3

Нещодавно Airbnb та Etsy опублікували детальну інформацію про свої робочі процеси.

— Трей
джерело

1

У розділі 1 «Практична наука даних з R» ( http://www.manning.com/zumel/ ) є суттєвий розподіл процесу наукових даних, включаючи ролі команди та те, як вони стосуються конкретних завдань. Книга слідує моделям, викладеним у цій главі, посилаючись на те, на яких етапах / персоналі виконуватиметься те чи інше завдання.

— d8aninja
джерело