Як виміряти дисперсію в даних про частоту слова?


10

Як я можу оцінити кількість дисперсії у векторі лічильників слів? Я шукаю статистику, яка буде високою для документа А, оскільки вона містить багато різних слів, які трапляються нечасто, і низькі для документа B, оскільки вони містять одне слово (або кілька слів), які трапляються часто.

Більш загально, як можна виміряти дисперсію або "розповсюдження" номінальних даних?

Чи існує стандартний спосіб зробити це у спільноті аналізу тексту?

введіть тут опис зображення

введіть тут опис зображення

Відповіді:


10

Для ймовірностей (пропорцій або часток) підсумовуючи до 1, сімейство містить кілька пропозицій щодо заходів (індекси, коефіцієнти, що завгодно) на цій території. Таким чиномp a i [ ln ( 1 / p i ) ] bpipia[ln(1/pi)]b

  1. a=0,b=0 повертає кількість спостережуваних виразних слів, про які можна думати найпростіше, незалежно від її ігнорування відмінностей між ймовірностями. Це завжди корисно, якщо тільки як контекст. В інших сферах це може бути кількість фірм у секторі, кількість видів, що спостерігаються на ділянці тощо. Загалом, назвемо це кількістю різних предметів .

  2. 1 - p 2 i 1 /p 2 i k 1 / k p 2 i = k ( 1 / k ) 2 = 1 / k ka=2,b=0 повертає Джині-Тьюрінга-Сімпсона-Герфіндаля-Гіршмана-Грінберга суму імовірностей у квадраті, інакше відомих як швидкість повторення чи чистоти або ймовірність відповідності або гомозиготність. Він часто повідомляється як його доповнення або його зворотний характер, іноді під іншими назвами, наприклад домішками або гетерозиготністю. У цьому контексті є ймовірність того, що два слова, вибрані випадковим чином, однакові, а його доповнення ймовірність того, що два слова різні. Зворотна має інтерпретацію як еквівалентну кількість однаково поширених категорій; це іноді називають цифрами еквівалентними. Таке тлумачення можна побачити, зазначивши, що однаково поширені категорії (кожна ймовірність при цьому1pi21/pi2k1/к ) мається на увазі так що зворотна ймовірність просто . Вибір імені, швидше за все, зрадить те поле, в якому ви працюєте. Кожне поле вшановує своїх предків, але я вітаю ймовірність відповідності як просту і майже майже самовизначену.pi2=к(1/к)2=1/кк

  3. H exp ( H ) k H = k ( 1 / k ) ln [ 1 / ( 1 / k ) ] = ln k exp ( H ) = exp ( ln k ) kа=1,б=1 повертає ентропію Шеннона, що часто позначається і вже сигналізується прямо чи опосередковано в попередніх відповідях. Назва ентропії тут застрягла, тому що це поєднання відмінних і не дуже вагомих причин, навіть фізика зрідка заздрить. Зауважимо, що - це числа, еквівалентні для цього заходу, як видно із зазначення в подібному стилі, що однаково загальні категорії дають , а значить, повертає вам . Ентропія має безліч чудових властивостей; "теорія інформації" - хороший пошуковий термін.Ндосвід(Н)кН=к(1/к)ln[1/(1/к)]=lnкдосвід(Н)=досвід(lnк)к

Рецептура знайдена в IJ Good. 1953. Частоти популяції видів та оцінка параметрів популяції. Біометріка 40: 237-264. www.jstor.org/stable/2333344 .

Інші основи для логарифму (наприклад, 10 або 2) однаково можливі за смаком або прецедентом або зручністю, для деяких формул, наведених вище, маються на увазі просто прості варіації.

Незалежні повторні розкриття (або відновлення) другого заходу є різноманітними для кількох дисциплін, а названі вище далеко не повний перелік.

Об’єднання спільних заходів у сім'ї - це не просто м'яко математично. Він підкреслює, що існує вибір міри залежно від відносних ваг, застосованих до дефіцитних та звичайних предметів, і таким чином зменшує будь-яке враження про примхливість, створене невеликим набором очевидно довільних пропозицій. Література в деяких галузях ослаблена документами і навіть книгами, заснованими на кричущих твердженнях, що деякий прихильний автор (и) автор (и) є найкращим заходом, яким повинні користуватися всі.

Мої розрахунки вказують, що приклади A і B не так відрізняються, за винятком першого заходу:

----------------------------------------------------------------------
          |  Shannon H      exp(H)     Simpson   1/Simpson      #items
----------+-----------------------------------------------------------
        A |      0.656       1.927       0.643       1.556          14
        B |      0.684       1.981       0.630       1.588           9 
----------------------------------------------------------------------

(Деяким може бути цікаво відзначити, що названий тут Сімпсон (Едвард Х'ю Сімпсон, 1922-) - це те саме, що вшановане іменем парадокса Сімпсона. Він зробив чудову роботу, але він не був першим, хто виявив будь-яку річ, для якої його називають, що, в свою чергу, є парадоксом Стіглера, що в свою чергу ....)


Це геніальна відповідь (і куди простіше її прослідкувати, ніж хороший документ 1953 р.)). Дякую!
дБ '

7

Я не знаю, чи існує загальний спосіб зробити це, але це здається мені аналогічним питанням нерівності в економіці. Якщо ви ставитесь до кожного слова як до окремої особи, а їх кількість вважається порівнянною з доходом, то вам цікаво порівняти, де мішок слів знаходиться між крайнощами кожного слова, що має однаковий підрахунок (повна рівність), або одним словом, що має всі підрахунки а всі інші нульові. Ускладнення полягає в тому, що "нулі" не відображаються, ви не можете мати менше 1 в мішку слів, як зазвичай визначено ...

Коефіцієнт Джині A дорівнює 0,18, а B - 0,43, що свідчить про те, що A більше "рівний", ніж B.

library(ineq)

A <- c(3, 2, 2, rep(1, 11))
B <- c(9, 2, rep(1, 7))
Gini(A)
Gini(B)

Мене цікавлять і інші відповіді. Очевидно, що старомодна дисперсія в підрахунках була б також відправною точкою, але вам доведеться якось масштабувати її, щоб зробити її порівнянною для сумок різного розміру і, отже, різного середнього підрахунку за кожне слово.


Гарний дзвінок - коефіцієнт Джині теж був моєю першою думкою! Шукаючи вченого з google, я не зміг знайти багато прецедентів для його використання з текстовими даними. Цікаво, чи є у спільноти пошуку NLP / тексту більш стандартний показник для подібних речей ...
dB

Слідкуйте: за моїм рахунком, Джині було названо як мінімум три різні заходи. Історія може бути захищеною у кожному випадку, але люди повинні бачити використану формулу.
Нік Кокс

1
Хороший момент @ NickCox - я думав про це, як про нерівність, що, на мою думку, є найпоширенішим: ellisp.github.io/blog/2017/08/05/weighted-gini Я бачив різні методи оцінюючи / обчислюючи це, але все з тим самим основним визначенням, в цьому контексті. Я знаю, що люди з машинного навчання використовують його для чогось іншого, але не бачили їх виправдання ...
Пітер Елліс,

1
@dB »Я знайшов цей папір з допомогою Джині в текстовому редакторі: proceedings.mlr.press/v10/sanasam10a/sanasam10a.pdf (я віддаю перевагу цей відповідь на загальноприйняті один, просто , як це робить кращою робота розрізнення вашого A і Б!)
Даррен Кук

5

У цій статті є огляд стандартних дисперсійних заходів, які використовуються лінгвістами. Вони перераховані як одношарові дисперсійні заходи (Вони вимірюють дисперсність слів по розділах, сторінках тощо), але, можливо, вони можуть бути використані як заходи дисперсії частоти слів. Здається, стандартними статистичними є:

  1. макс-хв
  2. стандартне відхилення
  3. СV
  4. χ2

Класикою є:

  1. D=1-СVн-1
  2. S=N(i=1ннi)2н
  3. D2=(журнал2N-i=1ннiжурнал2нiN)/журнал2(н)
  4. D3=1-χ24N

Nннi

У тексті також згадуються ще дві міри розповсюдження, але вони покладаються на просторове розташування слів, тому це не застосовується до моделі мішків слів.

  • Примітка . Я змінив початкові позначення із статті, щоб зробити формули більш узгодженими зі стандартними позначеннями.

fхi

vi

1
Чому рівняння з джерела точно не скопійовані (це не просто зміна міток у виразах, а й зміна виразу, або, принаймні, не послідовна зміна міток / змінних)?
Секст Емпірік

@NickCox Дякую за те, що я зрозумів, що я виправив формули, включаючи лише визначені кількості.
Кріс Новак

@MartijnWeterings Ви маєте рацію, що спочатку стаття стосувалася метрики одношарової дисперсії, хоча вони, схоже, узагальнюють частоту слова тривіально. Про всяк випадок я включив цю інформацію у відповідь. Я змінив оригінальне позначення, щоб зробити це застосовним до мішка слово слово (замінивши f на N, а v_i на n_i). Я додав примітку до цього, але якщо ви вважаєте, що це все-таки вводить в оману, я можу надати довше виправдання у відповіді.
Кріс Новак

4

Перше, що я зробив би - це обчислення ентропії Шеннона. Ви можете використовувати пакет R infotheo, функцію entropy(X, method="emp"). Якщо обгорнути natstobits(H)його, ви отримаєте ентропію цього джерела в бітах.


3

p(p1,...,pн)

Н¯(p)-pilnpilnн.

0Н¯(p)1

  • Крайня нерівність: весь підрахунок знаходиться в якійсь категорії . У цьому випадку у нас і це дає нам .p i = I ( i = k ) ˉ H ( p ) = 0кpi=Я(i=к)Н¯(p)=0

  • pi=1/нН¯(p)=1

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.