Anscombe-подібні набори даних із тим самим графіком вікон і вусів (середнє / std / медіан / MAD / хв / макс)


21

EDIT: Оскільки це питання завищене, підсумок: пошук різних значущих та інтерпретованих наборів даних із однаковою змішаною статистикою (середня, середня, середня та їх пов’язана дисперсія та регресія).

Квартет Anscombe (див. Призначення візуалізації даних високих розмірів? ) - відомий приклад чотирьох наборів даних - , з однаковим граничним середнім / стандартним відхиленням (на чотирьох і чотирьох , окремо) і тим самим лінійним пристосуванням OLS , регресія та залишкова сума квадратів, коефіцієнт кореляції . Таким статистика типу (гранична та спільна) однакова, тоді як набори даних зовсім інші.y x y R 2 2хухуR22

Квартет Анскомба

EDIT (з коментарів до ОП) Залишаючи невеликий розмір набору даних, дозвольте запропонувати деякі тлумачення. Набір 1 можна розглядати як стандартну лінійну (афінну, щоб бути правильною) залежність від розподіленого шуму. У наборі 2 показано чіткі відносини, які могли б бути прихильником більш високого ступеня. У наборі 3 показана чітка лінійна статистична залежність від одного зовнішнього. Набір 4 є більш складним: спроба "передбачити" з здається невдалою. Конструкція може виявити явище гістерезису з недостатнім діапазоном значень, ефектом квантування ( можна занадто сильно квантувати) або ж користувач переключив залежні та незалежні змінні.x x xуххх

Тож функції підсумків приховують дуже різну поведінку. Набір 2 міг би краще вирішити питання з поліномом. Встановіть 3 методами, стійкими до ( або подібних), а також набором 4. Можна задатися питанням, чи могли інші функції витрат або показники невідповідності врегулювати або принаймні покращити дискримінацію набору даних. EDIT (з коментарів до ОП): у блозі Цікаві регресії зазначають, що:121

Між іншим, мені кажуть, що Френк Анскомб ніколи не виявляв, як він придумав ці набори даних. Якщо ви вважаєте, що зібрати підсумкову статистику та результати регресії дуже просто, то спробуйте!

У наборах даних, побудованих для цілей, подібних до квартету Anscombe, подано декілька цікавих наборів даних, наприклад, з однаковими гістограмами на основі квантилів. Я не бачив суміші змістовних стосунків і змішаної статистики.

Моє запитання: чи є біваріантні (або триваріантні, щоб тримати візуалізацію) набори даних, подібних до Anscombe, такі, що, крім того, що мають ті ж статистичні дані2 :

  • їхні сюжети інтерпретуються як співвідношення між і , ніби шукає закон між вимірюваннями,уху
  • вони мають однакові (більш міцні) граничні властивості (однакові медіани та медіани абсолютного відхилення),1
  • вони мають однакові обмежувальні поля: однакові min, max (а отже, -тип середньої та середньої статистики).

Такі набори даних мали б однакові підсумки сюжету "коробки і вуса" (з min, max, медіаною, середнім абсолютним відхиленням / MAD, середнім значенням і std) для кожної змінної, і все ще були б зовсім іншими в інтерпретації.

Було б ще цікавіше, якби якась хоча б абсолютна регресія була однаковою для наборів даних (але, можливо, я вже занадто багато запитую). Вони можуть слугувати застереженням, коли говорити про міцну проти не стійкої регресії, і допомогти мати на увазі цитату Річарда Хеммінга:

Метою обчислень є розуміння, а не числа

EDIT (з коментарів до ОП) Подібні проблеми розглядаються у створенні даних з ідентичною статистикою, але різними графіками, Sangit Chatterjee & Aykut Firata, The American Statistician, 2007, або Cloning: генерування наборів даних з точно такою ж множинною лінійною регресією, Дж. Авст. Н.-З. Стат. J. 2009.

У Chatterjee (2007) метою є генерування нових пар з однаковими засобами та стандартними відхиленнями від початкового набору даних, одночасно максимізуючи різні об'єктивні функції "невідповідності / несхожості". Оскільки ці функції можуть бути невипуклими або недиференційованими, вони використовують генетичні алгоритми (GA). Важливі етапи полягають у орто-нормалізації, що дуже відповідає збереженню середньої та (одиничної) дисперсії. Цифри паперу (половина вмісту паперу) накладають вихідні та вихідні дані GA. На мою думку, результати GA втрачають багато оригінальної інтуїтивно зрозумілої інтерпретації.(х,у)

І технічно ні середній, ні середній діапазон не збереглися, і в роботі не згадуються процедури перенормування, які б зберегли , та .1 21


3
Якщо ви тільки після одноманітних наборів даних з тими ж ящиками, я дав набір у відповідь на запитання на деякий час назад, виходячи з розробки в роботі. Тримайся, я це викопаю. (редагувати) ... тут . Зробити більше наборів даних із тими ж властивостями легко ... Я звертаюся до цього в іншій відповіді, тут .
Glen_b -Встановіть Моніку

2
ху

ху

3
Chatterjee & Firat ( Американський статистик , 2007 р.) , Пов'язаний у цій відповіді на це питання , дає досить загальний генетичний алгоритм, який ви повинні мати можливість легко адаптувати до своїх цілей.
S. Kolassa - Відновіть Моніку

1
Сюжети - це приклади того, що моменти населення не мають сенсу, коли моменти розповсюдження ігноруються. Середній рівень, середнє відхилення, перекос та інші моменти сукупності не відповідають очікуваним значенням, стандартним відхиленням, косості та іншим моментам розподілів, які найкраще описують ці групи. Коли на графіках вище розглядається як розподіл x-значень та y-значень, вони всі різні і тому мають різні моменти розподілу. Це гірше, що просто ігноруючи залишкову структуру, яка була, мабуть, справа, не можна ігнорувати ні безкарно.
Карл

Відповіді:


1

Якщо конкретніше, я розглядаю проблему створення двох наборів даних, кожен з яких передбачає взаємозв'язок, але взаємозв'язок кожного відрізняється, але ще й має приблизно однаковий характер:

  • означає х
  • означають у
  • SD x
  • SD y
  • медіана х
  • медіана у
  • мінімум x
  • мінімум у
  • максимум x
  • максимум у
  • середнє абсолютне відхилення від медіани x
  • середнє абсолютне відхилення від медіани у
  • коефіцієнти від простої лінійної регресії y на x

маю на увазіу=0хву=-максу

Розглянемо, наприклад,

х019293949596979891у-1-1201211120-12-1

який має вгору V-подібний графік так:

графік

у-у


Приємний внесок. Дійсно, мені випала горизонтальна лінія - це трохи обман WTR OLS. Перегортання - це гарна ідея, але якщо набори даних різні, вони залишаються подібними. Але я думаю, у вас є гарна ідея, можливо, форма "N" і "W" однаково можуть стати початком шляху
Лоран Дюваль
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.