EDIT: Оскільки це питання завищене, підсумок: пошук різних значущих та інтерпретованих наборів даних із однаковою змішаною статистикою (середня, середня, середня та їх пов’язана дисперсія та регресія).
Квартет Anscombe (див. Призначення візуалізації даних високих розмірів? ) - відомий приклад чотирьох наборів даних - , з однаковим граничним середнім / стандартним відхиленням (на чотирьох і чотирьох , окремо) і тим самим лінійним пристосуванням OLS , регресія та залишкова сума квадратів, коефіцієнт кореляції . Таким статистика типу (гранична та спільна) однакова, тоді як набори даних зовсім інші.y x y R 2 ℓ 2
EDIT (з коментарів до ОП) Залишаючи невеликий розмір набору даних, дозвольте запропонувати деякі тлумачення. Набір 1 можна розглядати як стандартну лінійну (афінну, щоб бути правильною) залежність від розподіленого шуму. У наборі 2 показано чіткі відносини, які могли б бути прихильником більш високого ступеня. У наборі 3 показана чітка лінійна статистична залежність від одного зовнішнього. Набір 4 є більш складним: спроба "передбачити" з здається невдалою. Конструкція може виявити явище гістерезису з недостатнім діапазоном значень, ефектом квантування ( можна занадто сильно квантувати) або ж користувач переключив залежні та незалежні змінні.x x x
Тож функції підсумків приховують дуже різну поведінку. Набір 2 міг би краще вирішити питання з поліномом. Встановіть 3 методами, стійкими до ( або подібних), а також набором 4. Можна задатися питанням, чи могли інші функції витрат або показники невідповідності врегулювати або принаймні покращити дискримінацію набору даних. EDIT (з коментарів до ОП): у блозі Цікаві регресії зазначають, що:ℓ 1
Між іншим, мені кажуть, що Френк Анскомб ніколи не виявляв, як він придумав ці набори даних. Якщо ви вважаєте, що зібрати підсумкову статистику та результати регресії дуже просто, то спробуйте!
У наборах даних, побудованих для цілей, подібних до квартету Anscombe, подано декілька цікавих наборів даних, наприклад, з однаковими гістограмами на основі квантилів. Я не бачив суміші змістовних стосунків і змішаної статистики.
Моє запитання: чи є біваріантні (або триваріантні, щоб тримати візуалізацію) набори даних, подібних до Anscombe, такі, що, крім того, що мають ті ж статистичні дані :
- їхні сюжети інтерпретуються як співвідношення між і , ніби шукає закон між вимірюваннями,у
- вони мають однакові (більш міцні) граничні властивості (однакові медіани та медіани абсолютного відхилення),
- вони мають однакові обмежувальні поля: однакові min, max (а отже, -тип середньої та середньої статистики).
Такі набори даних мали б однакові підсумки сюжету "коробки і вуса" (з min, max, медіаною, середнім абсолютним відхиленням / MAD, середнім значенням і std) для кожної змінної, і все ще були б зовсім іншими в інтерпретації.
Було б ще цікавіше, якби якась хоча б абсолютна регресія була однаковою для наборів даних (але, можливо, я вже занадто багато запитую). Вони можуть слугувати застереженням, коли говорити про міцну проти не стійкої регресії, і допомогти мати на увазі цитату Річарда Хеммінга:
Метою обчислень є розуміння, а не числа
EDIT (з коментарів до ОП) Подібні проблеми розглядаються у створенні даних з ідентичною статистикою, але різними графіками, Sangit Chatterjee & Aykut Firata, The American Statistician, 2007, або Cloning: генерування наборів даних з точно такою ж множинною лінійною регресією, Дж. Авст. Н.-З. Стат. J. 2009.
У Chatterjee (2007) метою є генерування нових пар з однаковими засобами та стандартними відхиленнями від початкового набору даних, одночасно максимізуючи різні об'єктивні функції "невідповідності / несхожості". Оскільки ці функції можуть бути невипуклими або недиференційованими, вони використовують генетичні алгоритми (GA). Важливі етапи полягають у орто-нормалізації, що дуже відповідає збереженню середньої та (одиничної) дисперсії. Цифри паперу (половина вмісту паперу) накладають вихідні та вихідні дані GA. На мою думку, результати GA втрачають багато оригінальної інтуїтивно зрозумілої інтерпретації.
І технічно ні середній, ні середній діапазон не збереглися, і в роботі не згадуються процедури перенормування, які б зберегли , та .ℓ 1 ℓ ∞