В основному, існує два поширених способи навчитися проти величезних наборів даних (коли ви стикаєтесь із обмеженнями часу та простору):
- Обман :) - використовуйте просто "керований" підмножину для тренувань. Втрата точності може бути незначною через закон зменшення віддачі - прогнозована ефективність моделі часто вирівнюється задовго до того, як у неї будуть включені всі дані тренувань.
- Паралельні обчислення - розділіть проблему на менші частини та вирішіть кожну на окремій машині / процесорі. Вам потрібна паралельна версія алгоритму, але гарна новина полягає в тому, що багато загальних алгоритмів є, природно, паралельними: найближчий сусід, дерева рішень тощо.
Чи існують інші методи? Чи є якесь правило, коли використовувати кожне? Які недоліки кожного підходу?