Я намагаюся досягти швидкості з R. Я врешті-решт хочу використовувати R-бібліотеки для класифікації тексту. Мені було просто цікаво, який досвід людей щодо масштабованості R, коли мова йде про класифікацію тексту.
Я, швидше за все, зіткнувся з великими розмірними даними (~ 300k розмірів). Я дивлюся на використання SVM та Random Forest, зокрема, як алгоритми класифікації.
Чи може R бібліотеки масштабуватися до мого розміру проблеми?
Спасибі.
EDIT 1: Просто для уточнення, мій набір даних може мати 1000-3000 рядків (можливо, трохи більше) та 10 класів.
EDIT 2: Оскільки я дуже новачок у R, я попрошу плакати, де це можливо, бути більш конкретними. Наприклад, якщо ви пропонуєте робочий процес / трубопровід, будь ласка, обов'язково вкажіть R бібліотеки, які беруть участь у кожному кроці, якщо це можливо. Деякі додаткові вказівники (на приклади, зразок коду тощо) будуть глазур'ю торта.
EDIT 3: По-перше, дякую всім за ваші коментарі. По-друге, я вибачаюся, можливо, я мав би дати більше контексту для проблеми. Я новачок у R, але не стільки в класифікації тексту. Я вже зробив попередню обробку (стримування, видалення стоп-слова, перетворення tf-idf тощо) на моїй частині моїх даних за допомогою пакету tm , просто щоб зрозуміти щось. Тм був настільки повільним, навіть приблизно на 200документах, що я переймався масштабуванням. Тоді я почав грати з FSelector і навіть це було дуже повільно. І це той момент, коли я зробив свій ОП.
EDIT 4: Мені просто прийшло в голову, що я маю 10 класів і близько ~ 300 навчальних документів на клас, і я фактично будую матрицю termXdoc з усього навчального набору, що призводить до дуже високої розмірності. Але як щодо зведення кожної проблеми класифікації 1-з-к до ряду проблем бінарної класифікації? Це значно зменшило б кількість навчальних документів (і, отже, розмірність) на кожному з етапів k-1, чи не так? Тож такий підхід хороший? Як вона порівнюється за точністю зі звичайною багатокласовою реалізацією?