У мене є цей побічний проект, де я переглядаю веб-сайти місцевих новин у своїй країні і хочу створити індекс злочинності та індекс політичної нестабільності. Я вже висвітлював інформаційно-пошукову частину проекту. Мій план:
- Непідконтрольне вилучення теми.
- Виявлення дублікатів поблизу.
- Контрольована класифікація та рівень інцидентів (злочинність / політичний - високий / середній / низький).
Я буду використовувати python і sklearn і вже вивчив алгоритми, які я можу використовувати для цих завдань. Я думаю, що 2. міг би дати мені коефіцієнт релевантності історії: чим більше публікацій новин про історію чи тему, тим більш актуальними для цього дня.
Наступним моїм кроком є побудова щомісячного, щотижневого та денного індексів (загальнодержавних та по містах) на основі функцій, які я маю, і я трохи втратив тут, оскільки "чутливість до нестабільності" може зрости з часом. Я маю на увазі, що індекс від головного інциденту нестабільності минулого року міг бути меншим, ніж індекс цього року. Також якщо використовувати фіксовану шкалу 0-100 чи ні.
Пізніше я хотів би мати можливість передбачити інциденти, виходячи з цього, наприклад, чи веде спадковість подій за останні тижні до великого інциденту. Але наразі я буду задоволений тим, що класифікація працює і будує модель індексу.
Буду вдячний за будь-який вказівник на папір, відповідні читання чи думки. Спасибі.
ПД: Вибачте, якщо питання тут не належить.
ОНОВЛЕННЯ : Я ще не "зробив це", але нещодавно з'явилася новина про групу вчених, які працюють в системі для прогнозування подій за допомогою архівів новин і випустили відповідний документ " Майнінг Інтернету для прогнозування майбутніх подій" (PDF ).