Приборкання косого… Чому так багато функцій перекосу?

Я сподіваюся отримати більше розуміння чотирьох типів перекосів у цій громаді.

Типи, про які я згадую, згадуються на http://www.inside-r.org/packages/cran/e1071/docs/skewness довідковій сторінці.

Старий метод не згадувався на довідковій сторінці, але я все ж включаю його.

require(moments)
require(e1071)


x=rnorm(100)
n=length(x)
hist(x)


###############type=1
e1071::skewness(x,type=1)
sqrt(n) * sum((x-mean(x))^3)/(sum((x - mean(x))^2)^(3/2)) #from e1071::skewness source
m_r=function(x,r) {n=length(x); sum((x - mean(x))^r/n);} ##from e1071::skewness help
g_1=function(x) m_r(x,3)/m_r(x,2)^(3/2)
g_1(x) ##from e1071::skewness help
moments::skewness(x) ##from e1071::skewness help
(sum((x - mean(x))^3)/n)/(sum((x - mean(x))^2)/n)^(3/2) ##from moments::skewness code, exactly as skewness help page


###############type=2
e1071::skewness(x,type=2)
e1071::skewness(x,type=1) * sqrt(n * (n - 1))/(n - 2) #from e1071::skewness source
G_1=function(x) {n=length(x); g_1(x)*sqrt(n*(n-1))/(n-2);} #from e1071::help
G_1(x)
excel.skew=function(x) { n=length(x); return(n/((n-1)*(n-2))*sum(((x-mean(x))/sd(x))^3));}
excel.skew(x)


###############type=3
e1071::skewness(x,type=3)
e1071::skewness(x,type=1) * ((1 - 1/n))^(3/2) #from e1071::skewness source
b_1=function(x) {n=length(x); g_1(x)*((n-1)/n)^(3/2); }  #from e1071::skewness help page
b_1(x);
prof.skew=function(x) sum((x-mean(x))^3)/(length(x)*sd(x)^3);
prof.skew(x)

###############very old method that fails in weird cases
(3*mean(x)-median(x))/sd(x)
#I found this to fail on certain data sets as well...

Ось документ, на який посилається автор e1071: http://onlinelibrary.wiley.com/doi/10.1111/1467-9884.00122/pdf Joanes and CA Gill (1998), Порівнюючи міри скасованості зразків та куртозу.

З мого читання цього документа вони припускають, що тип №3 має найменшу помилку.

Ось приклади косості з наведеного вище коду:

e1071::skewness(x,type=1)
-0.1620332
e1071::skewness(x,type=2)
-0.1645113
e1071::skewness(x,type=3)
-0.1596088
#old type:
0.2694532

Я також помітив, що автор e1071 написав функцію перекосу, відмінну від приміток на сторінці довідки. Помітьте sqrt:

sqrt(n) * sum((x-mean(x))^3)/(sum((x - mean(x))^2)^(3/2)) #from e1071::skewness source

(sum((x - mean(x))^3)/n)/(sum((x - mean(x))^2)/n)^(3/2) #from moments and e1071 help page

Будь-які ідеї, чому sqrt (n) знаходиться в першому рівнянні? Яке рівняння краще обробляє перелив / перелив? Будь-які інші ідеї, чому вони різні (але дають однакові результати)?

skewness

— Кріс
джерело

Ваше запитання згадує про "чотири типи перекосу" ... але потім дає посилання і запускається в купу коду (яку мову ви навіть не згадуєте). Тож людям не потрібно читати посилання, щоб дізнатись, про що ви запитуєте, а на користь людям, які не читають R, і тим, хто вважає, що читає код, не допомагає передати розуміння, це допоможе визначити, які чотири міри скасованості, які ви маєте на увазі перед (або бажано замість) обманом коду. [Коли ви говорите "чотири", а не говорите "ці чотири", чому ви вважаєте, що саме чотири, а не п'ять чи сім чи якесь інше число?]

— Glen_b -Встановіть Моніку

Я намагався дати певну форму відповіді на конкретні запитання, які я міг знайти у вашій посаді, і вирішив декілька питань по дорозі, але поза цим "сподіванням на більше розуміння" занадто розпливчасто. Чи можете ви чіткіше визначити, про що ви хочете зрозуміти? На нашому сайті є багато питань, що стосуються косості.

— Glen_b -Встановіть Моніку

Дякую, Глен, за твої дописи. Я включив R для ілюстративних цілей і для показу формул. Також я не знаю латексу. :(

— Кріс

Почнемо з того, який ви описуєте як "старий метод"; це друга косоокість Пірсона, або середня косоокість ; насправді спотвореність моменту, і вони, як правило, однакові (середня косості насправді трохи молодша з моменту перекосу, що передує зусиллям Пірсона).

Трохи обговорення деяких з історії можна знайти тут ; ця публікація також може кинути трохи світла на пару ваших інших питань.

Якщо ви шукаєте на нашому веб-сайті за допомогою другого нахилу Пірсона, ви потрапите на досить багато публікацій, які містять обговорення поведінки цього заходу.

Це насправді не будь-яке дивніше, ніж моменти перекосу в моєму розумі; вони обидва іноді роблять якісь дивні речі, які не відповідають очікуванням людей щодо міри скасованості.

Звичайна форма обговорюється тут у Вікіпедії ; як говориться, це метод оцінювання моментів і природний предмет, що використовується з огляду на розрахунок чисельності населення з точки зору стандартизованого третього моменту. $b_1$

Якщо ви використовуєте для (тобто без корекції Бесселя), ви отримаєте вами тип ; будь-який із тих, що я б назвав "методом моментів". Мені не зрозуміло, що є багато сенсу намагатися розв'язати знаменник, оскільки це не обов'язково знімає відношення; це може мати сенс зробити так, щоб розрахунок відповідав тому, що люди можуть розраховувати робити вручну. $s_n$ $s_{n-1}$ $g_1$

Однак існує другий (еквівалентний) спосіб визначення спотвореності населення за сукупністю (див. Вище посилання Вікіпедія), і якщо для зразка косості ви використовували неупереджені оцінки, ви отримуєте . $G_1$

[Зауважимо далі, що множення чисельника на на знімає його, тому це може бути ще однією причиною, коли люди дивляться на цю форму. Якщо спробувати розв'язати як обчислення третього, так і другого моменту, виходить дещо інший коефіцієнт і що виходить на передню частину.] $b_1$ $\frac{n^2}{(n-1)(n-2)}$ $n,(n-1)$ $(n-2)$

Усі три з них є просто різними варіаціями щодо косості третього моменту. У дуже великих зразках насправді немає різниці, яку ви використовуєте. У менших зразках всі вони мають дещо різні зміщення та дисперсію.

Форми, які обговорюються тут, не вичерпують визначення косості (я думаю, я бачив близько десятка, я думаю, що у статті Вікіпедії перелічено досить багато, але навіть це не охоплює гаму), а також навіть визначення, що стосуються третього. -момент косоокості, яких я бачив більше, ніж трійку, яку ти тут виховуєш.

Чому існує багато заходів косості?

Тож (трактуючи всі ці косості третього моменту як один на мить), чому так багато різних косих? Частково це тому, що косості як поняття насправді досить важко визначити. Це слизька річ, яку ви насправді не можете прикріпити до одного номера. Як наслідок, усі визначення певним чином є менш ніж адекватними, але, тим не менш, зазвичай узгоджуються з нашим широким розумінням того, що, на наш погляд, слід робити мірою косоокості. Люди намагаються придумати кращі визначення, але старі заходи, як-от клавіатури QWERTY, нікуди не діваються.

Чому на основі третього моменту існує кілька заходів косості?

Що стосується того, чому так багато перекосів третього моменту, це просто тому, що існує більше, ніж один спосіб перетворити кількість населення у вибірковий показник. Ми бачили два маршрути на основі моментів і один на основі кумулянтів. Ми могли б побудувати ще більше; ми, наприклад, можемо спробувати отримати об'єктивну міру (малого зразка) за деяким припущенням розподілу, або мірою середньоквадратичної помилки або якоюсь іншою такою величиною.

На сайті ви можете знайти деякі публікації, що стосуються просвітлення косості; Є деякі з них, які показують приклади розподілів, які не симетричні, але мають нульовий нахил третього моменту. Є такі, які показують серединну косостість Пірсона, а косості третього моменту можуть мати протилежні знаки.

Ось посилання на кілька публікацій, що стосуються перекосу:

Чи означає, що середня = медіана означає, що унімодальний розподіл симетричний?

У лівих перекошених даних, який взаємозв'язок між середнім та медіанним?

як визначити перекос з гістограми за допомогою аутограми?

Що стосується вашого остаточного запитання щодо обчислення : $b_1$

$\sqrt{n} \cdot \frac{\sum{(x-\bar{x})^3}}{(\sum({x - \bar{x}})^2)^{3/2}}\qquad$ # від e1071 :: джерело косості

$\frac{\sum(x - \bar{x})^3/n}{(\sum(x - \bar{x})^2/n)^{3/2}}\qquad$ # від моментів і сторінка довідки e1071

Дві форми алгебраїчно однакові; другий чітко записаний у формі "третій момент на другий момент до живлення , тоді як перший просто скасовує терміни в і виводить залишки на передню частину. Я не думаю, що це було зроблено з міркувань уникнення переливу / underflow; Я думаю, що це було зроблено, тому що вважалося, що це трохи швидше. [Якщо переповнення або переповнення викликають занепокоєння, можна було б впорядкувати розрахунки по-іншому.] $\frac32$ $n$

— Glen_b -Встановити Моніку
джерело