Я хочу побудувати індекс злочинності та індекс політичної нестабільності на основі новин


17

У мене є цей побічний проект, де я переглядаю веб-сайти місцевих новин у своїй країні і хочу створити індекс злочинності та індекс політичної нестабільності. Я вже висвітлював інформаційно-пошукову частину проекту. Мій план:

  • Непідконтрольне вилучення теми.
  • Виявлення дублікатів поблизу.
  • Контрольована класифікація та рівень інцидентів (злочинність / політичний - високий / середній / низький).

Я буду використовувати python і sklearn і вже вивчив алгоритми, які я можу використовувати для цих завдань. Я думаю, що 2. міг би дати мені коефіцієнт релевантності історії: чим більше публікацій новин про історію чи тему, тим більш актуальними для цього дня.

Наступним моїм кроком є ​​побудова щомісячного, щотижневого та денного індексів (загальнодержавних та по містах) на основі функцій, які я маю, і я трохи втратив тут, оскільки "чутливість до нестабільності" може зрости з часом. Я маю на увазі, що індекс від головного інциденту нестабільності минулого року міг бути меншим, ніж індекс цього року. Також якщо використовувати фіксовану шкалу 0-100 чи ні.

Пізніше я хотів би мати можливість передбачити інциденти, виходячи з цього, наприклад, чи веде спадковість подій за останні тижні до великого інциденту. Але наразі я буду задоволений тим, що класифікація працює і будує модель індексу.

Буду вдячний за будь-який вказівник на папір, відповідні читання чи думки. Спасибі.

ПД: Вибачте, якщо питання тут не належить.

ОНОВЛЕННЯ : Я ще не "зробив це", але нещодавно з'явилася новина про групу вчених, які працюють в системі для прогнозування подій за допомогою архівів новин і випустили відповідний документ " Майнінг Інтернету для прогнозування майбутніх подій" (PDF ).


Щодо технічної частини (інструменти), я б рекомендував дві книги як хороший погляд на О'Райлі: Колективний інтелект (з кодом Python), Машинне навчання (з кодом R) ... трій захоплення тем, пов'язаних з вашими. Наступним кроком може стати веб-сайт Manning ... Для методичної частини я б рекомендував Semantic Web group на LinkedIn.
Раду Маріус Флорін

Супер дуже подобається це питання. Тримайте нас в курсі !!
ентропія

Відповіді:


1

Розглянемо варіації оцінки GINI.

Він нормалізується, а його вихід становить від 0 до 1.

Редагувати:

Чому GINI "крутий" або принаймні потенційно доречний:

Це міра нерівності чи нерівності. Він використовується як міра без масштабу для характеристики неоднорідності безмасштабних мереж, включаючи нескінченні та випадкові мережі. Це корисно для побудови дерев CART, оскільки це міра потужності розщеплення певного поділу даних.

Через асортимент:

  • є менше помилок округлення. Діапазони, далекі від 1,0, зазвичай зазнають числових питань.
  • це читається для людини і доступніше для людини. Люди мають більш конкретне розуміння об'єктів, ніж мільярди.

Оскільки це нормалізується:

  • порівняння балів є значимим, 0,9 в одній країні означає той самий рівень відносної нерівномірності, як 0,9 в будь-якій іншій країні.
  • Він нормалізується проти кривої Лоренца для ідеальної рівномірності, тому значення є відповідними показниками співвідношення розподілу значень, що цікавлять, до кривої Лоренца.

Список літератури:


4
Ласкаво просимо на сайт, @EngrStudent. Ви б не хотіли сказати трохи більше про коефіцієнт GINI, і чому це правильна відповідь тут? Оскільки ви тут новачок і починаєте робити свій внесок, ви можете прочитати наш FAQ , який містить багато інформації про сайт.
gung - Відновіть Моніку
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.