У цьому семестрі у мене є курс машинного навчання, і професор попросив нас знайти реальну проблему та вирішити її одним із методів машинного навчання, що вводяться в класі, як:
- Дерева рішень
- Штучні нейронні мережі
- Підтримка векторних машин
- Навчання на основі екземплярів ( kNN , LWL )
- Байєсські мережі
- Підсилення навчання
Я один з шанувальників StackOverflow і stackexchange і знати бази даних звалища з цих сайтів доводяться до відома громадськості , тому що вони є дивовижними! Я сподіваюся, що зможу знайти гарний виклик машинного навчання щодо цих баз даних і вирішити його.
Моя ідея
Мені прийшла в голову одна ідея - передбачити теги для запитань на основі введених слів у тілі питань. Я думаю, що байєсівська мережа - це правильний інструмент для вивчення тегів для запитання, але потребує додаткового дослідження. У будь-якому разі, після фази навчання, коли користувач закінчує вводити питання, слід запропонувати йому деякі теги.
Скажіть будь ласка :
Я хочу задати спільноті статистики як досвідченим людям два питання щодо ML:
Як ви вважаєте, пропозиція щодо тегів - це принаймні проблема, яку можна вирішити? Чи є у вас поради щодо цього? Я трохи хвилююся, тому що stackexchange ще не реалізує таку функцію.
Чи є у вас інша / краща ідея для проекту ML, який базується на базі даних stackexchange? Мені дуже важко знайти щось, чому можна дізнатися з баз даних stackexchange.
Розгляд помилок бази даних: Я хотів би зазначити, що хоча бази даних є величезними і мають багато примірників, вони не є ідеальними і піддаються помилкам. Очевидним є вік користувачів, який є ненадійним. Навіть вибрані теги для запитання не на 100% вірні. У будь-якому разі, ми повинні враховувати відсоток правильності даних при виборі проблеми.
Поміркування щодо самої проблеми: Мій проект не повинен бути про data-mining
щось подібне. Це просто має бути застосування методів ML в реальному світі.