Я розглядаю можливість використання бібліотек Python для експериментів з машинного навчання. Поки що я покладався на WEKA, але в цілому був досить незадоволений. Це передусім тому, що я вважаю, що WEKA не настільки добре підтримується (дуже мало прикладів, документація є рідкою, а підтримка спільноти є меншою, ніж бажана на моєму досвіді), і я опинився в складних ситуаціях, коли допомоги не буде. Ще одна причина, що я задумуюсь над цим кроком, полягає в тому, що мені дуже подобається Python (я новачок у Python) і не хочу повертатися до кодування на Java.
Тож моє запитання - що більше
- всебічний
- масштабованість (100 к функцій, 10 к. прикладів) та
- добре підтримуються бібліотеки для того, щоб робити ML в Python там?
Мене особливо цікавить класифікація тексту, і тому я хотів би використовувати бібліотеку, яка має гарну колекцію класифікаторів, методи вибору функцій (посилення інформації, Chi-Sqaured тощо) та можливості попередньої обробки тексту (стримування, видалення стоп-слова) , tf-idf тощо).
Грунтуючись на минулих потоках електронної пошти тут і в інших місцях, я до цього часу переглядав PyML, scikits-learn та Orange. Яким був досвід людей щодо вищезгаданих 3 показників, які я згадую?
Будь-які інші пропозиції?