Що таке розподіл коефіцієнтів журналу?


11

Я читаю підручник з машинного навчання (Data Mining від Witten, et al., 2011) і натрапив на цей уривок:

... Більше того, можна використовувати різні дистрибутиви. Хоча звичайний розподіл зазвичай є хорошим вибором для числових атрибутів, він не підходить для атрибутів, які мають заздалегідь визначений мінімум, але не мають верхньої межі; в цьому випадку більш зручним є "log-normal" розподіл. Числові атрибути, обмежені вище та знизу, можуть моделюватися розподілом "log-odds" .

Я ніколи не чув про таке розповсюдження. Я шукав "розподіл шансів на журнал", але не зміг знайти жодної відповідної точної відповідності. Може хтось допоможе мені? Що це за розподіл і чому він допомагає з обмеженими числами вгорі та внизу?

PS Я інженер програмного забезпечення, а не статистик.

Відповіді:


14

чому це допомагає з обмеженими числами вгорі та внизу?

Розподіл, визначений на є тим, що робить його придатним як модель для даних про ( 0 , 1 ) . Я не думаю, що текст передбачає щось більше, ніж "це модель для даних про ( 0 , 1 ) " (або загалом, про ( a , b ) ).(0,1)(0,1)(0,1)(а,б)

що це за розподіл ...?

На жаль, термін "розподіл журнальних шансів", на жаль, не є повністю стандартним (і навіть тоді не дуже поширеним терміном).

Я обговорюю деякі можливості, що це може означати. Почнемо з розгляду способу побудови розподілів для значень в одиничному інтервалі.

Поширеним способом моделювання безперервної випадкової величини в ( 0 , 1 ) є бета-розподіл , а поширеним способом моделювання дискретних пропорцій у [ 0 , 1 ] є масштабований двочлен ( P = X / n , принаймні, коли X - кількість).П(0,1)[0,1]П=Х/нХ

Альтернативою для використання бета-розподілу було б взяти деякий безперервний зворотний CDF ( ) і використовувати його для перетворення значень (( 0 , 1 ) в реальну лінію (або рідко - реальну піврядку), а потім використовувати будь-який відповідний розподіл ( G ) для моделювання значень на перетвореному діапазоні. Це відкриває багато можливостей, оскільки будь-яка пара безперервних розподілів по реальній лінії ( F , G ) доступна для перетворення та моделі.Ж-1(0,1)ГЖ,Г

Так, наприклад, логічне перетворення (також званийлогіт) буде однимтакого зворотного вправо перетворення (є зворотний КОР стандартноїлогістики), а потім Є багато дистрибутивів ми могли б розглянутиякості моделей дляY.Y=журнал(П1-П)Y

Тоді ми можемо використовувати (наприклад) логістичну модель для Y , простого сімейства з двома параметрами на реальній лінії. Трансформація назад до ( 0 , 1 ) за допомогою перетворення зворотних логічних коефіцієнтів (тобто P = exp ( Y )(мк,τ)Y(0,1) ) дає розподіл двох параметрів дляP, той, який може бути унімодальним або U-образним, або J-образним, симетричним чи перекошеним, багато в чому схожим на бета-розподіл (особисто я би назвав це logit -логістичний, оскільки його logit є логістичним). Ось кілька прикладів для різних значеньμ,τ:П=досвід(Y)1+досвід(Y)Пмк,τ

введіть тут опис зображення

Дивлячись на коротке згадування у тексті Віттена та ін, це може бути саме те, що передбачається "розподілом журнальних шансів", але вони можуть так само легко означати щось інше.

Інша можливість полягає в тому, що logit-normal був призначений.

[1]ЖГ(0,1)), на який вони, здається, витрачають багато сил. (Здавалося б, простіше просто уникнути невідповідної моделі, але, можливо, це лише я.)

YП

ПY-

[2]

Отже, як бачите, це не термін з єдиним значенням. Без чітких вказівок Віттена чи когось із інших авторів цієї книги нам залишається здогадуватися, що призначено.

[1]: Ноель ван Ерп і Пітер ван Гелдер, (2008),
"Як інтерпретувати розподіл бета-версії у випадку поломки",
Матеріали 6-ї міжнародної імовірнісної семінару , Дармштадт
pdf посилання

[2]: Ян Го, (2009),
Нові методи системи оцінювання можливостей і стійкості системи NDE,
Дисертація представлена ​​в аспірантурі Університету Уейна, Детройт, Мічиган


1
(+1) Пошук у всій книзі свідчить про те, що ніяких роз’яснень не очікується. Контекст говорить про те, що "розподіл журнальних шансів" відноситься до якоїсь конкретної моделі, подібно до того, як "лонормальне" пропонується в попередньому реченні як універсальний розподіл для всіх негативних значень (!).
whuber

1
@whuber Я погоджуюся з вашою характеристикою того, що є в книзі - я не мав наміру, що мої коментарі, що стосуються використання терміна в інших контекстах для посилання на зразок розподілу, означають, що це було наміром у книзі, але лише як вказівка ​​на те, що це термін із кількома значеннями. Щодо питань, про які йдеться, моя порада людям, які вивчають цей матеріал (як і про багато речей), буде читати більше однієї книги.
Glen_b -Встановіть Моніку

2

Я інженер програмного забезпечення (а не статистик) і нещодавно прочитав книгу під назвою Вступ до статистичного навчання. З додатками в Р.

Я думаю, про те, що ти читаєш, - це коефіцієнти log або of logit. сторінка 132

http://www-bcf.usc.edu/~gareth/ISL/ISLR%20Fourth%20Printing.pdf

Блискуча книга - я читала її від обкладинки до обкладинки. Сподіваюсь, це допомагає


Дякую за вказівник Припускаючи, що розподіл коефіцієнтів журналу - це те саме, що "логістичний розподіл", я подивився останній у Вікіпедії. Здається, що його PDF не має нижньої або верхньої межі. Тож мені все ще цікаво, чому в підручнику, який я цитував, спочатку було сказано, що "Числові атрибути, обмежені вгорі та внизу, можна моделювати" за допомогою цього розподілу.
stackoverflowuser2010

Я думаю, що це, можливо, говорить про вихід функції, де межі значень від 0,0 (неможливо) до 1,0 (визначено). (Я можу тут абсолютно помилятися)
JasonEdinburgh

Можливо, що ваша модель могла б отримати довільно великі позитивні чи негативні результати. Вони не можуть бути інтерпретовані з точки зору обмеженого діапазону, такого як ймовірність, але вони можуть бути інтерпретовані як логічний коефіцієнт з використанням функції logit та її зворотної логістичної функції.
Генрі
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.