Що призначене "Нехай дані говорять самі за себе"?


10

Читаючи наступний документ , я натрапив на таке твердження:

Як вже було сказано, він часто подається без будь-яких посилань на імовірнісні моделі, відповідно до ідеї Бензекри [1973] "нехай дані говорять самі за себе".

(цитування від JP Benzécri. L'analyse des données. Tome II: Листування L'analyse des. Dunod, 1973.)

З того, як я читаю цей документ, звучить так, що "нехай дані говорять самі за себе" означає щось уздовж розгляду різних заходів для даних без огляду на функцію ймовірності чи процес генерування даних .

Хоча раніше я чув цитату "нехай дані говорять самі за себе", я не замислювався над тим, що мається на увазі. Чи є моя вищезгадана інтерпретація, що канонічно мається на увазі під цитатою?


9
Нехай цитата говорить сама за себе.
Марк Л. Стоун

@ MarkL.Stone: Начебто дані, цитати краще розуміти з контекстом
Cliff AB

Відповіді:


8

Інтерпретація залежить від контексту, але є деякі загальні контексти, в яких це виникає. Заява часто використовується в байєсівському аналізі, щоб наголосити на тому, що в ідеалі ми б хотіли, щоб задній розподіл в аналізі був надійним до попередніх припущень, щоб ефект даних "домінував" над задньою. Загалом, цитата зазвичай означає, що ми хочемо, щоб наша статистична модель відповідала структурі даних, а не примушувала їх до інтерпретації, що є неперевіреним структурним припущенням моделі.

Конкретна цитата, на яку ви посилаєтесь, доповнюється додатковою цитатою: "Модель повинна слідувати за даними, а не навпаки" (перекладено з Benzécrire J (1973) L'Analyse des Données. Tome II: L'Analyse des Coritions) . Dunod, стор. 6). Бензекрі стверджував, що статистичні моделі повинні витягувати структуру з даних, а не нав'язувати структуру. Він вважав використання дослідницьких графічних методів дуже важливим, щоб дозволити аналітику "нехай дані говорять".


(+1) Зважаючи на це, я вважаю, що цитата в першому зв'язаному документі означає, що ці методи розглядають структуру емпіричної коваріації, а не структуру залежності, засновану на моделі.
Кліф АВ

1
Так, я думаю, що це правильно. Варто зазначити, що Бенжекрі стверджував, що аналіз даних в основному еквівалентний розладу власних речовин у PCA. Він цитує, що "в цілому аналіз даних в хорошій математиці - це просто пошук власних векторів; вся наука (або мистецтво) полягає у пошуку правильної матриці для діагоналізації". (див. Husson et al 2016 , p. 2)
Бен - Відновлення Моніки

2
Ха, це дуже цікава заява для нього. Цей контекст робить цитату в документі набагато більше сенсу.
Кліф АВ

Так, це досить екстремально!
Бен - Відновіть Моніку

(+1). Хоча, на перший погляд, цитата здається важко не погодитись (чому б "все-таки" щось було б добре?), Прокляття розмірності в непараметричній статистиці, наприклад, показує, що це, так би мовити, простіше слухати дані, що говорять самі за себе, коли ми слухаємо їх за допомогою параметричної моделі.
Крістоф Ханк

1

Ще в 2005 році, коли "Дані даних" були останньою загрозою для статистичної професії, я пам'ятаю, як бачив плакат з "Принципами видобутку даних", одним з яких було "Нехай дані говорять" (не пам'ятаю, чи "для себе" було включено). Якщо ви думаєте про алгоритми, які можна вважати "майнінг даних", то на увазі приходять априорі та рекурсивний розподіл, два алгоритми, які можна мотивувати без статистичних припущень і привести до досить базових підсумків базового набору даних.

@Ben більше розуміє історію фрази, ніж я, але думаю про цитату, як це зазначено в статті:

MCA може розглядатися як аналог PCA для категоричних даних і передбачає зменшення розмірності даних, щоб забезпечити підпростір, який найкраще представляє дані в сенсі максимальної мінливості прогнозованих точок. Як уже згадувалося, він часто подається без будь-яких посилань на імовірнісні моделі, відповідно до ідеї Benz´ecri [1973] про “дозволяти даним говорити самі за себе”.

мені здається, що процедура MCA нагадує аріорі або рекурсивний розподіл (або пекло, середнє арифметичне для цього питання), оскільки він може бути мотивований без будь-якого моделювання і є механічною операцією над набором даних, який має сенс на основі на деяких першоосновах.

Існує спектр дозволу даних говорити. Повністю басейські моделі з сильними пріорами були б на одному кінці. Непараметричні моделі, що часто використовуються, будуть ближче до іншого кінця.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.