Виводимо відхилення від boxplot

Мені було цікаво, як вивести дисперсію змінної за допомогою boxplot. Чи можна принаймні зробити висновок, якщо дві змінні мають однакову дисперсію, спостерігаючи за їх боксплотом?

variance boxplot

— Донбео
джерело

Нещодавно натрапив на цю статтю про подібну тему. Сподіваюся, це дасть вам деяке розуміння.

— Penguin_Knight

Відповіді:

Не без багатьох суворих припущень, ні. Якщо ви припускаєте, що відповідь "так" (замість того, щоб запитати, за що я вам аплодую), я маю надію, що я можу вас обдурити цим (зустрічним) прикладом:set.seed(1);boxplot(rnorm(10000),c(-3,-2.65,rep((-2:2)*.674,5),2.65,3))

Виглядає досить схоже, правда? І все ж ! $\sigma^2_1=1,\sigma^2_2=1.96$

Якщо це не зрозуміло з коду, кількість населення 2:

-3.000 -2.650 -1.348 -0.674  0.000  0.674  1.348 -1.348 -0.674  0.000
 0.674  1.348 -1.348 -0.674  0.000  0.674  1.348 -1.348 -0.674  0.000
 0.674  1.348 -1.348 -0.674  0.000  0.674  1.348  2.650  3.000

І ні, ви не можете зробити висновок, що це населення нормальне лише тому, що воно точно симетричне. Ось графік кількості населення QQ 2:

Звичайно, для мене це не виглядає нормально.

Редагувати - Відповідь на ваш коментар:

Варіант - це числова статистика. Якщо відхилення двох розподілів буквально рівні, це майже все, що ви повинні сказати про це. Якщо два розподіли абсолютно нормальні , знову ж таки, є математичне визначення, яке вони обидва відповідають. Якщо два розподіли не зовсім нормальні або однакові за рівнем, не слід говорити інакше. Якщо ви хочете сказати, що вони приблизно рівні або нормальні, вам, мабуть, слід визначити "достатньо приблизним" таким чином, що відповідає вашим цілям, якого ви тут не вказали. Чутливість до різниць розподілу різниться в різних аналізах, які зазвичай мотивують такі питання, як ваше. Наприклад, $t$ це досить надійно до порушень останнього з рівними розмірами вибірки ), тому я б не рекомендував цей тест для порівняння моєї популяції 2з популяцією 1(нормальний розподіл).

— Нік Стаунер
джерело

Хороший приклад. Нік використовує Р. (Поки всі не користуються R, це добре згадати про це.)

— Нік Кокс

Не можу не думати, що це був би гарний день для науки в цілому :)

— Нік Стаунер

У мене є довгий твір з цього приводу, але якимось чином він не поміститься у наявному просторі.

— Нік Кокс

Гарна відповідь. Чи можете ви написати, яку інформацію ми повинні повідомити, щоб сказати: "Вони нормальні, а дисперсія однакова"

— Донбео

Відредаговано, щоб відповісти.

— Нік Стаунер

На це добре відповіли. Ці додаткові коментарі є занадто довгими (ОНОВЛЕННЯ: зараз дуже задовго), щоб залишатись як коментарі.

Суворо, все, що ви можете прочитати з коробки про мінливість розподілу, - це його міжквартирний діапазон (довжина або висота коробки) і діапазон (довжина або висота між крайністю дисплея).

Як наближення, графічні коробки, які здаються однаковими, ймовірно, мають дуже схожі відхилення, але слідкуйте. Ділянки коробки з дуже різними положеннями коробки або хвостами (або обома), найімовірніше, не мають подібних варіацій, але це неможливо. Але навіть якщо ділянки коробки виглядають однаково, ви не отримуєте ніякої інформації в простому або ванільному графіку про мінливість усередині поля або про мінливість всередині вусів (рядки, часто показані між коробкою та точками даних у межах 1,5 IQR від ближчого квартиля) . Примітка: існує кілька варіантів сюжетних короб; Автори часто погано документують точні правила, якими користується їх програмне забезпечення.

Популярність сюжетної коробки має свою ціну. Діаграми поля можуть бути дуже корисними для показу грубих особливостей багатьох груп чи змінних (скажімо, 20 чи 30, іноді навіть більше). Як часто використовують для порівняння скажімо 2 або 3 групи, на мій погляд, вони перепродаються, оскільки інші сюжети можуть демонструвати набагато більш детальну інформацію в тому ж просторі. Природно, це широко, якщо не загальновизнано, і різні вдосконалення сюжету коробки демонструють більше деталей.

Серйозна робота з відхиленнями вимагає доступу до оригінальних даних.

Це широка кисть, і більше деталей можна було б додати. Наприклад, положення медіани всередині поля іноді дає трохи більше інформації.

ОНОВЛЕННЯ

Я здогадуюсь, що набагато більше людей цікавляться використанням (та обмеженнями) графіків коробки взагалі, ніж конкретним питанням про відхилення від графіку коробки (на що коротка відповідь: "Ви не можете, крім опосередкованого, приблизно, а іноді "), тож я додам ще коментарі щодо альтернатив, підказані @Christian Sauer.

Гістограми, що використовуються розумно, часто все ще є конкурентними. Сучасний класичний вступний текст Фрідмана, Пісані та Первеса використовує їх у всьому світі.
Які різні відомі як точкові або смугові сюжети (діаграми) (і за багатьма іншими назвами) легко зрозуміти. Ідентичні окуляри можна укладати, якщо бажаєте, після бінінгу. Ви можете додати до змісту свого серця медіану і квартілі, або середні та довірчі інтервали.
Квантильні сюжети, здається, набули смаку, але в декількох аспектах найбільш універсальні з усіх. Я включаю сюди ділянки впорядкованих значень знову-таки кумулятивної ймовірності (графіки позиції), а також квантильні графіки, які були б прямими, якби дані вважалися будь-яким "фірмовим" розподілом (нормальне, експоненціальне, гамма, будь-яке). (Подяка @Scortchi за посилання на "фірмове найменування", яким користується CJ Geyer.)

Але вичерпний перелік неможливий. (Додаю, наприклад, що дуже часто представлення стебла та листків є правильним, щоб побачити важливі деталі в даних, як коли розгорнута перевага цифр.) Ключовим принципом є те, що найкращі види розподільної ділянки дозволяють начебто неможливе сприйняття тонкої структури в даних, які можуть бути цікавими або важливими (модальність, деталізація, виснаження тощо), а також грубої структури (рівень, поширення, косостість тощо).

Сюжетні коробки не однаково добре показують всі види структури. Вони не можуть бути і не мали намір бути. Варто позначити, що JW Tukey в дослідницькому аналізі даних Reading, MA: Аддісон-Уеслі (1977) наводив приклад бімодальних даних з Релі, котрий графік коробки повністю затінює основну структуру. Як великий статистик, він добре розумів, що сюжетні скриньки - це не завжди відповідь.

Дивна практика, широко поширена у вступних текстах, обговорює ANOVA, пропонуючи читачам подивитися на графічні сюжети, на яких зображені медіани та квартілі, а не засоби та відхилення (скоріше SD). Природно, що дивитись на дані набагато краще, ніж не дивитись, але навіть так, більш доречним графічним зображенням є, певно, якийсь графік необроблених даних із встановленими засобами +/- деякий відповідний кратний SE.

— Нік Кокс
джерело

Нік, чи не могли б ви описати альтернативи графікам для невеликої кількості змінних?

— Крістіан Зауер

@ChristianSauer Дякую за підказку: будь ласка, дивіться оновлення.

— Нік Кокс

Дякую за дуже приємне оновлення. Мені особливо подобається ваш останній абзац, я вважаю коробчасті сюжети в поєднанні з ANOVA та / або регресією досить заплутаними - це як порівняння яблук та апельсинів.

— Крістіан Зауер

Статистика, як і будь-яка інша наука, сповнена химерної термінології, позначень та звичок аналізу, щойно скопійована з інших.

— Нік Кокс

Я повністю згоден - у своїй магістерській роботі я перевірив незалежні змінні на їх нормальний розподіл ... це найкраща форма статистики культового культу :(

— Крістіан Зауер

Наївний підхід:

$0.67\cdot\sigma$ $1.35\cdot \sigma$

$IQR=1.35\cdot\sigma$ $\sigma=0.74\cdot IQR$

А щодо порівняння дисперсій за допомогою боксплота: ширші коробки означають більші розбіжності, але це дає вам дослідницьке розуміння, і ви повинні враховувати також вусати та груднички. Для підтвердження слід використовувати контраст гіпотези.

— Руфо
джерело

Для порівняння дисперсії ми все ще припускаємо, що обидва розподілу є нормальними? Чи можемо ми зробити висновок, що змінна є нормальною, якщо поле симетричне відносно центру?

— Донбео

Я підписався на все, що говорить @Nick_Stauner. Що я викрив, я вважав, що ваша популяція є нормальною, що вимагає, серед іншого, але не просто, симетрії та куртозу = 0. Це припущення часто порушується.

— Руфо

Куртоз визначається різними способами. В іншому (більш простому) визначенні нормальний (гауссовий) має куртоз 3. Вам потрібно перевірити, яке визначення використовує ваше програмне забезпечення, якщо ви його обчислюєте на практиці.

— Нік Кокс

Для нормального розподілу це був би куртоз 3, надлишок куртозу 0 , якщо я не помиляюся. Мені цікаво, якщо будь-які популярні програмні пакети за замовчуванням створюють зайвий куртоз. Це, мабуть, призведе до великої плутанини (не заперечуючи, що люди взагалі дещо плутаються упущенням "надлишку" у протилежній практиці) ...

— Нік Стаунер

-

$-$