Дані про почуття Emoji

Для експерименту ми хотіли б використовувати Emoji, вбудований у багато твітів, як основну інформацію правди / навчання для простого кількісного аналізу почуттів. Твіти зазвичай занадто неструктуровані, щоб NLP працював добре.

У будь-якому випадку в Unicode 6.0 є 722 Emoji, і, ймовірно, ще 250 буде додано в Unicode 7.0.

Чи є база даних (наприклад, SentiWordNet), яка містить анотації настроїв для них?

(Зверніть увагу, що SentiWordNet також дозволяє отримати неоднозначні значення. Вважайте, наприклад, смішно , що не є просто позитивним: "це смішно смачно", мабуть, не є позитивним ... те ж саме стосуватиметься, ;-)наприклад. Але я не думаю, що це складніше для Emoji, ніж це для звичайних слів ...)

Крім того, якщо у вас є досвід їх використання для аналізу настроїв, мені було б цікаво почути.

machine-learning classification parsing

— Еріх Шуберт
джерело

Не вірте, що щось подібне існує в даний час, але дуже сподобається, якщо ви щось для цього зібрали!

— indico

Еріх Шуберт, я шукаю саме те саме! Чи мали ви шанс знайти для нього корисний ресурс?

— saeed mehrabi

Відповіді:

Всього 972 смайликів насправді не такі великі, щоб не мати змоги позначити їх вручну, але я сумніваюся, що вони будуть працювати як хороша основна правда. Такі джерела, як Twitter, сповнені іронії, сарказму та інших складних налаштувань, де емоційні символи (наприклад, емоджи або смайлик) означають щось відмінне від звичайного тлумачення. Наприклад, хтось може написати "ххх обманув своїх клієнтів, а тепер вони самі себе обдурили! Ха-ха-ха!: D". Це, безумовно, негативний коментар, але автор радий, що компанія xxx переживає проблеми і тим самим додає позитивний смайлик. Ці випадки не такі часті, але, безумовно, не підходять для основної істини.

Набагато більш поширений підхід - використовувати смайлик як насіння для збору фактичного набору даних . Наприклад, у цій роботі автори використовують смайли та емоційні теги хешу, щоб схопити лексикон слів, корисних для подальшої класифікації.

— подруга
джерело

Насправді я не згоден. Оскільки автору подобається, що вони потрапляють у біду, це є позитивним настроєм. Це негативний коментар компанії, але все-таки позитивний настрій автора. У цьому більш простому сценарії (я не говорю, що це повна мета), передбачення того, який еможий користувач додасть до своєї публікації, звучить як розумне завдання для мене. Насправді ви можете сконструювати багато випадків, коли смайли будуть істотними. Розгляньте "Отримано f_cked :-)" на відміну від "Got f_cked. :-("

— Еріх Шуберт

Якщо ви намагаєтеся оцінити емоцію людини на відміну від ставлення людини до предмета, то так, цей приклад не працює. Але є багато інших. Сарказм - поширений випадок. Розгляньте речення "о так, ти справжній" господар ";)". Людина може зловити негативний контекст, але позитивний емотикон вкаже на позитивні емоції. Але я насправді цього не зрозумів: ви хочете витягувати суб’єктивну інформацію з твітів або просто передбачити можливі емоджи? Хоча вони звучать схоже, друге завдання насправді не стосується аналізу настроїв. Принаймні, не безпосередньо.

— подруга

Смайлик "підморгування" зазвичай не вважається "позитивним", а "іронічним" ... саме тому хороший словник, такий як SentiWordNet, має сенс. Якщо ви дивитесь смішно в SentiWordNet, це має також не одне значення! sentiwordnet.isti.cnr.it/search.php?q=funny (Так що це не тривіальне анотувати їх вручну, тому що це не так просто , як позитивні / негативні, але ви повинні зробити перевірку звичайної межекспертний-угоди і т.д.)

— Еріх Шуберт

Тепер я бачу вашу ідею. Але я не думаю, що це буде спрацьовувати, просто тому, що (більшість) емоджи насправді не звучать як хороші прогнози для мене, і ви явно не хочете використовувати інші функції. У всякому разі, це лише думка, заснована на моєму досвіді, лише дані можуть дати реальні відповіді. Удачі!

— подруга

Хто сказав, що я не хочу використовувати інші функції? Але за цим я бачив бази даних ...

— Еріх Шуберт

Я вважаю це репортаж Github корисним (хороший початок): https://github.com/wooorm/emoji-emotion Список емоджи, оцінений за валентність, з цілим числом від мінус п’ять (від’ємний) та плюс п’ять (позитивний).

Переглянути список підтримуваних unicode-emojis: https://github.com/wooorm/emoji-emotion/blob/master/Support.md

Зауважте, що деякі смайли отримують настільки заплутану полярність, як stuck_out_tongue_closed_eyes (0), оскільки вони використовуються як для позитивних, так і для негативних емоцій.

— Тал Вайс
джерело