Максимальне значення коефіцієнта варіації для обмеженого набору даних


17

У ході дискусії після нещодавнього запитання про те, чи може стандартне відхилення перевищувати середнє, одне питання було порушено коротко, але ніколи не було повністю відповіді. Тому я прошу це тут.

Розглянемо набір негативних чисел де для . Не потрібно, щоб були чіткими, тобто набір міг бути мультисетом. Середнє значення та дисперсія набору визначаються як а стандартне відхилення - . Зауважте, що набір чисел не є вибіркою з популяції, і ми не оцінюємо середню чи меншу кількість чисельність населення. Тоді питання:nxi0xic1inxi

x¯=1ni=1nxi,  σx2=1ni=1n(xix¯)2=(1ni=1nxi2)x¯2
σx

Яке максимальне значення , коефіцієнт варіації, для всіх варіантів вибору в інтервалі ?σxx¯xi[0,c]

Максимальне значення , яке можна знайти для є , яка досягається при з мають значення , а інші (викид) має значення , даючи Але це взагалі не залежить від , і мені цікаво, чи можна досягти більших значень, можливо залежних як від і від .σxx¯ n-1xi0xic ˉ xn1n1xi0xiccnc

x¯=cn,  1nxi2=c2nσx=c2nc2n2=cnn1.
cnc

Будь-які ідеї? Я впевнений, що це питання було вивчене в статистичній літературі раніше, і тому посилання, як не реальні результати, були б дуже вдячні.


Я думаю, ти маєш рацію в тому, що це найбільше можливе значення, і я також здивований, що не має значення. Класно. c
Пітер Флом - Відновити Моніку

7
c не повинно впливати на результат, оскільки не змінюється, якщо всі значення множать на будь-яку позитивну константу . kσxx¯k
Генріх

Відповіді:


15

Геометрія забезпечує розуміння, а класичні нерівності дозволяють легко отримати доступ до суворості.

Геометричне рішення

З геометрії найменших квадратів ми знаємо, що є ортогональною проекцією вектора даних на лінійну підпростору, породжену постійним вектором і що прямо пропорційна відстані (евклідова) між і Обмеження, що не мають негативу, є лінійними, а відстань - це опукла функція, звідки крайності відстані повинні досягатися на краях конуса, визначених обмеженнями. Цей конус є позитивним ортантом уx=(x1,x2,,xn)(1,1,,1)σxx ˉ x .x¯=(x¯,x¯,,x¯)x=(x1,x2,,xn)(1,1,,1)σxxx¯.Rnі його краї є осями координат, звідки відразу випливає, що всі, крім однієї з повинні бути нульовими на максимальних відстанях. Для такого набору даних прямий (простий) розрахунок показуєσ x / ˉ xxiσx/x¯=n.

Рішення, що використовує класичні нерівності

σx/x¯ оптимізується одночасно з будь-яким монотонним перетворенням. З огляду на це, давайте максимізувати

x12+x22++xn2(x1+x2++xn)2=1n(n1n(σxx¯)2+1)=f(σxx¯).

(Формула для може виглядати загадковою, поки ви не зрозумієте, що вона лише записує кроки, які б здійснив алгебраїчно маніпулюючи щоб перетворити його в просту форму, яка є лівою стороною.)fσx/x¯

Простий шлях починається з нерівності власника ,

x12+x22++xn2(x1+x2++xn)max({xi}).

(Для цього не потрібно спеціального доказування в цьому простому контексті: просто замініть один коефіцієнт кожного доданка на максимальний компонент : очевидно, сума квадратів не зменшиться. З загального терміна виходить права частина нерівності.)xi2=xi×ximax({xi})max({xi})

Оскільки не всі (це залишить невизначеним), ділення на квадрат їх суми є дійсним і дає еквівалентну нерівністьxi0σx/x¯

x12+x22++xn2(x1+x2++xn)2max({xi})x1+x2++xn.

Оскільки знаменник не може бути меншим за чисельник (що саме є лише одним із доданків у знаменнику), у правій частині домінує значення , яке досягається лише тоді, коли всі, крім одного з дорівнюють . Звідси1xi0

σxx¯f1(1)=(1×(n1))nn1=n.

Альтернативний підхід

Оскільки неотрицательний і не може дорівнювати , значення визначають розподіл ймовірності на . Записуючи для суми , визнаємоxi0p(i)=xi/(x1+x2++xn)F{1,2,,n}sxi

x12+x22++xn2(x1+x2++xn)2=x12+x22++xn2s2=(x1s)(x1s)+(x2s)(x2s)++(xns)(xns)=p1p1+p2p2++pnpn=EF[p].

Аксіоматичний факт, що жодна ймовірність не може перевищувати означає, що це очікування також не може перевищувати , але легко зробити його рівним , встановивши все, окрім одного з рівного а тому точно один з є ненульовим. Обчисліть коефіцієнт варіації, як в останньому рядку геометричного рішення вище.111pi0xi


Дякую за детальну відповідь, з якої я багато чого навчився! Я припускаю, що різниця між у вашій відповіді та яку я отримав (і підтвердив Генрі), пов'язана з тим, що ви використовуєтеnn1
σx=1n1i=1n(xix¯)2
як визначення тоді як я використовувавσx
σx=1ni=1n(xix¯)2?
Діліп Сарват

1
Так, Діліп, саме так. Вибачте за невідповідність питання; Я повинен був перевірити спочатку, і я повинен був визначити (що я мав намір зробити, але забув). σx
whuber

10

Деякі згадки, як маленькі свічки на тортах інших:

Катнесон і Коц (1957) довели, що поки всі , то коефіцієнт варіації не може перевищувати . Цей результат згадувався раніше Лонглі (1952). Крамер (1946, с. 357) виявив менш гострий результат, а Кірбі (1974) - менш загальний результат.xi0n1

Крамер, Х. 1946. Математичні методи статистики . Прінстон, Нью-Джерсі: Прінстонський університетський прес.

Катнелсон, Дж. Та Коц. 1957. На верхніх межах деяких мінливості. Archiv für Meteorologie, Geophysik und Bioklimatologie , Series B 8: 103–107.

Кірбі, В. 1974. Алгебраїчна обмеженість вибіркової статистики. Дослідження водних ресурсів 10: 220–222.

Лонглі, RW 1952. Заходи мінливості опадів. Щомісячний огляд погоди 80: 111–117.

Я натрапив на ці документи, працюючи над

Кокс, Нью-Джерсі. 2010. Межі спотвореності та куртозу. Статистичний журнал 10: 482-495.

де обговорюються широко подібні межі щодо моменту, що базується на моменті, та куртозу.


8

З двома числами , деякими і будь-якимиxixjδ>0μ :

(xi+δμ)2+(xjδμ)2(xiμ)2(xjμ)2=2δ(xixj+δ)>0.

Застосовуючи це до невід’ємних точок даних, це означає, що, якщо всі, крім одного з чисел, дорівнюють нулю, і тому їх не можна зменшити далі, можна збільшити дисперсію та стандартне відхилення шляхом збільшення розриву між будь-якою парою точок даних зберігаючи ту саму середню, тим самим збільшуючи коефіцієнт варіації. Отже, максимальний коефіцієнт варіації для набору даних такий, як ви пропонуєте:nnn1 .

c не повинно впливати на результат, оскільки не змінюється, якщо всі значення множать на будь-яку позитивну константу (як я вже сказав у своєму коментарі).σxx¯k

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.