Мені було цікаво, як вивести дисперсію змінної за допомогою boxplot. Чи можна принаймні зробити висновок, якщо дві змінні мають однакову дисперсію, спостерігаючи за їх боксплотом?
Мені було цікаво, як вивести дисперсію змінної за допомогою boxplot. Чи можна принаймні зробити висновок, якщо дві змінні мають однакову дисперсію, спостерігаючи за їх боксплотом?
Відповіді:
Не без багатьох суворих припущень, ні. Якщо ви припускаєте, що відповідь "так" (замість того, щоб запитати, за що я вам аплодую), я маю надію, що я можу вас обдурити цим (зустрічним) прикладом:set.seed(1);boxplot(rnorm(10000),c(-3,-2.65,rep((-2:2)*.674,5),2.65,3))
Виглядає досить схоже, правда? І все ж !
Якщо це не зрозуміло з коду, кількість населення 2
:
-3.000 -2.650 -1.348 -0.674 0.000 0.674 1.348 -1.348 -0.674 0.000
0.674 1.348 -1.348 -0.674 0.000 0.674 1.348 -1.348 -0.674 0.000
0.674 1.348 -1.348 -0.674 0.000 0.674 1.348 2.650 3.000
І ні, ви не можете зробити висновок, що це населення нормальне лише тому, що воно точно симетричне. Ось графік кількості населення QQ 2
:
Звичайно, для мене це не виглядає нормально.
Редагувати - Відповідь на ваш коментар:
Варіант - це числова статистика. Якщо відхилення двох розподілів буквально рівні, це майже все, що ви повинні сказати про це. Якщо два розподіли абсолютно нормальні , знову ж таки, є математичне визначення, яке вони обидва відповідають. Якщо два розподіли не зовсім нормальні або однакові за рівнем, не слід говорити інакше. Якщо ви хочете сказати, що вони приблизно рівні або нормальні, вам, мабуть, слід визначити "достатньо приблизним" таким чином, що відповідає вашим цілям, якого ви тут не вказали. Чутливість до різниць розподілу різниться в різних аналізах, які зазвичай мотивують такі питання, як ваше. Наприклад,це досить надійно до порушень останнього з рівними розмірами вибірки ), тому я б не рекомендував цей тест для порівняння моєї популяції 2
з популяцією 1
(нормальний розподіл).
На це добре відповіли. Ці додаткові коментарі є занадто довгими (ОНОВЛЕННЯ: зараз дуже задовго), щоб залишатись як коментарі.
Суворо, все, що ви можете прочитати з коробки про мінливість розподілу, - це його міжквартирний діапазон (довжина або висота коробки) і діапазон (довжина або висота між крайністю дисплея).
Як наближення, графічні коробки, які здаються однаковими, ймовірно, мають дуже схожі відхилення, але слідкуйте. Ділянки коробки з дуже різними положеннями коробки або хвостами (або обома), найімовірніше, не мають подібних варіацій, але це неможливо. Але навіть якщо ділянки коробки виглядають однаково, ви не отримуєте ніякої інформації в простому або ванільному графіку про мінливість усередині поля або про мінливість всередині вусів (рядки, часто показані між коробкою та точками даних у межах 1,5 IQR від ближчого квартиля) . Примітка: існує кілька варіантів сюжетних короб; Автори часто погано документують точні правила, якими користується їх програмне забезпечення.
Популярність сюжетної коробки має свою ціну. Діаграми поля можуть бути дуже корисними для показу грубих особливостей багатьох груп чи змінних (скажімо, 20 чи 30, іноді навіть більше). Як часто використовують для порівняння скажімо 2 або 3 групи, на мій погляд, вони перепродаються, оскільки інші сюжети можуть демонструвати набагато більш детальну інформацію в тому ж просторі. Природно, це широко, якщо не загальновизнано, і різні вдосконалення сюжету коробки демонструють більше деталей.
Серйозна робота з відхиленнями вимагає доступу до оригінальних даних.
Це широка кисть, і більше деталей можна було б додати. Наприклад, положення медіани всередині поля іноді дає трохи більше інформації.
ОНОВЛЕННЯ
Я здогадуюсь, що набагато більше людей цікавляться використанням (та обмеженнями) графіків коробки взагалі, ніж конкретним питанням про відхилення від графіку коробки (на що коротка відповідь: "Ви не можете, крім опосередкованого, приблизно, а іноді "), тож я додам ще коментарі щодо альтернатив, підказані @Christian Sauer.
Гістограми, що використовуються розумно, часто все ще є конкурентними. Сучасний класичний вступний текст Фрідмана, Пісані та Первеса використовує їх у всьому світі.
Які різні відомі як точкові або смугові сюжети (діаграми) (і за багатьма іншими назвами) легко зрозуміти. Ідентичні окуляри можна укладати, якщо бажаєте, після бінінгу. Ви можете додати до змісту свого серця медіану і квартілі, або середні та довірчі інтервали.
Квантильні сюжети, здається, набули смаку, але в декількох аспектах найбільш універсальні з усіх. Я включаю сюди ділянки впорядкованих значень знову-таки кумулятивної ймовірності (графіки позиції), а також квантильні графіки, які були б прямими, якби дані вважалися будь-яким "фірмовим" розподілом (нормальне, експоненціальне, гамма, будь-яке). (Подяка @Scortchi за посилання на "фірмове найменування", яким користується CJ Geyer.)
Але вичерпний перелік неможливий. (Додаю, наприклад, що дуже часто представлення стебла та листків є правильним, щоб побачити важливі деталі в даних, як коли розгорнута перевага цифр.) Ключовим принципом є те, що найкращі види розподільної ділянки дозволяють начебто неможливе сприйняття тонкої структури в даних, які можуть бути цікавими або важливими (модальність, деталізація, виснаження тощо), а також грубої структури (рівень, поширення, косостість тощо).
Сюжетні коробки не однаково добре показують всі види структури. Вони не можуть бути і не мали намір бути. Варто позначити, що JW Tukey в дослідницькому аналізі даних Reading, MA: Аддісон-Уеслі (1977) наводив приклад бімодальних даних з Релі, котрий графік коробки повністю затінює основну структуру. Як великий статистик, він добре розумів, що сюжетні скриньки - це не завжди відповідь.
Дивна практика, широко поширена у вступних текстах, обговорює ANOVA, пропонуючи читачам подивитися на графічні сюжети, на яких зображені медіани та квартілі, а не засоби та відхилення (скоріше SD). Природно, що дивитись на дані набагато краще, ніж не дивитись, але навіть так, більш доречним графічним зображенням є, певно, якийсь графік необроблених даних із встановленими засобами +/- деякий відповідний кратний SE.
Наївний підхід:
А щодо порівняння дисперсій за допомогою боксплота: ширші коробки означають більші розбіжності, але це дає вам дослідницьке розуміння, і ви повинні враховувати також вусати та груднички. Для підтвердження слід використовувати контраст гіпотези.