Трансформація даних: Усі змінні чи лише ненормальні?


14

У статистиці відкриття Енді Філда за допомогою SPSS він заявляє, що всі змінні повинні бути перетворені.

Однак у публікації: "Вивчення просторово залежних взаємозв'язків між землекористуванням та якістю води за допомогою географічно зваженої регресії I: Розробка та оцінка моделі" вони конкретно констатують, що трансформувались лише ненормальні змінні.

Цей аналіз специфічний? Наприклад, у порівнянні засобів, порівняння журналів із необробленими даними, очевидно, призведе до суттєвої різниці, тоді як, коли використовується щось на зразок регресії для дослідження зв’язку між змінними, воно стає менш важливим.

Редагувати: Ось повна текстова сторінка у розділі "Перетворення даних":

А ось посилання на статтю: http://www.sciencedirect.com/science/article/pii/S0048969708009121


16
На основі нового зображення, яке ви опублікували, автор, як видається, плутає "змінну" з "спостереженням". Зверху на с. 154 він справедливо підкреслює, що перетворюючи змінну, ти повинен трансформувати всі її значення (спостереження) однаково, бо в іншому випадку неможливо порівняти щось. (Затвердження цього "не змінить взаємозв'язку між змінними" вимагає надзвичайно щедрої інтерпретації, щоб бути правильною.) Внизу стор. 154 настільки явно неправильне, речення за реченням (навіть у виносках), що навіть не варто витрачати час на перерахування всіх проблем із цим.
whuber

Відповіді:


17

Ви цитуєте кілька порад, які, без сумніву, призначені корисно, але важко знайти багато заслуг у будь-якій з них.

У кожному випадку я повністю покладаюся на те, що ви цитуєте як резюме. На захист авторів я хотів би вірити, що вони додають належної кваліфікації в оточуючих чи інших матеріалах. (Повні бібліографічні довідки у звичайній назві, даті, заголовку (видавці, місці) або (назві журналу, томі, сторінках) можуть покращити питання.)

Поле

Ця порада призначена корисно, але в кращому випадку значно спрощена. Польові поради, схоже, призначені загалом; наприклад, посилання на тест Левене передбачає деякий тимчасовий фокус на аналізі дисперсії.

(1,0)

Загалом, у багатьох сферах звичайна ситуація - деякі прогнози повинні бути перетворені, а решту залишити як є.

Це правда, що зустріч у статті чи дисертації суміші трансформацій, застосованих по-різному для різних прогнозів (у тому числі, як особливий випадок, трансформація ідентичності або залишення такою, яка є) часто викликає занепокоєння у читача. Це суміш - добре продуманий набір варіантів чи це був довільний і примхливий?

Крім того, у ряді досліджень послідовність підходу (завжди застосовуючи логарифми до відповіді або ніколи цього не виконуючи) робить величезну допомогу в порівнянні результатів, а різний підхід ускладнює її.

Але це не означає, що ніколи не може бути причин для поєднання трансформацій.

Я не бачу, що більшість розділів, які ви цитуєте, багато в чому стосуються ключової поради, яку ви виділяєте жовтим кольором. Це саме по собі викликає занепокоєння: дивна справа оголошувати абсолютне правило, а потім не дуже пояснювати це. І навпаки, наказ «Пам'ятай» говорить про те, що підстави Філда були подані раніше в книзі.

Анонімний папір

Контекст тут - регресійні моделі. Як часто, розмова про OLS дивно підкреслює метод оцінки, а не модель, але ми можемо зрозуміти, що призначено. GWR I трактується як географічно зважена регресія.

Аргумент тут полягає в тому, що ви повинні трансформувати ненормативні прогноктори і залишити інших таким, як є. Знову ж таки, виникає питання про те, що можна і що потрібно робити із змінними індикаторів, які неможливо нормально розподілити (на що, як зазначено вище, можна відповісти, вказавши, що ненормальність у цьому випадку не є проблемою). Але в судовому застереженні це має на увазі, що проблема полягає в ненормальності передбачувачів. Не так; це не є частиною регресійного моделювання, щоб припустити щось про граничні розподіли прогнозів.

Хβ

На цьому форумі є стільки надзвичайно гарних порад щодо перетворень, що я зосередився на обговоренні того, що ви цитуєте.

PS Ви додаєте заяву, починаючи "Наприклад, у порівнянні засобів, порівняння журналів із необробленими даними, очевидно, призведе до значної різниці". Мені не ясно, що ви маєте на увазі, але порівнювати значення для однієї групи з логарифмами значень для іншої групи було б просто безглуздим. Я взагалі не розумію решти вашої заяви.


Нік, я хотів швидко і стисло висловити свою думку, що, на мою думку, я зробив. У світі Google я надав достатньо інформації, щоб легко отримати доступ до оригіналів документів, якщо вони вимагатимуть. Дякую за те, що відповіли, хоч і навпаки, ви надали мені саме ту інформацію, яку я шукав: Необхідність перетворити всі змінні, як це є пропозицією Філда, в його розділі «Трансформація даних» - це неправильний підхід до перетворення даних.
I серце б’ється

14
+1. Я дивуюся тому, наскільки тактовно вам вдалося розібратися з матеріалами, які так відверто неправильно. Сторінки скидання тут і там у книзі SPSS дають зрозуміти деякі справді заплутані питання, які ми отримуємо на цьому веб-сайті: я думаю, що вони повинні надходити від читачів цієї книги. Він сповнений помилок, дезінформації та відвертої конфабуляції.
whuber

@ I Heart Beats Приємно, що ти знайшов відповідь корисною, але мій запит на належне посилання на стендах. Ви також можете сказати, що неповні посилання завжди можна захистити, оскільки зацікавлені люди завжди можуть користуватися Google. Навпаки, хороші наукові та наукові знання допомагають хорошій бібліографічній практиці, даючи повну інформацію та не змушуючи (багато) читачів робити зайву роботу.
Нік Кокс

@Nick дивіться зміни в моєму запитанні. Я вважаю, що стаття є відкритим кодом, і я додав повну сторінку тексту для контексту.
I серце б’ється

8
Дякуємо за вдосконалення посилань. Ви цитували більше з Field. Існує додатковий розділ, у тому числі твердження, що "перетворення даних не змінить взаємозв'язок між змінними". Або те, що орієнтується на ідіосинкратичне значення "стосунків", або (що, швидше за все, я боюся), це не допомагає, справді зовсім неправильно. Я шкодую (в одному сенсі), щоб погодитись з @whuber щодо книги, про яку йдеться, щодо свідчень перед нами . (Оновлення: Уабер робив по суті той самий момент одночасно: дивіться його коментар до цього питання.)
Нік Кокс

10

Перш за все, обидві цитати вводять в оману, оскільки будь-яка трансформація, застосована до даних, призначених для використання в регресійній моделі, не робиться для того, щоб змінні PDF-файли були більш нормально розподілені, це робиться для того, щоб зробити модель залишків більш симетричними, оскільки одне припущення про класичну регресію є що помилки є гауссовими. Це означає більш глибокий рівень суворості та суворості, ніж просто симетризація PDF-файлу.

Більше того, обидві цитати слабкі тим, що жодна з них не вникає в мотивацію їх рецептів (принаймні, виходячи з наданої інформації). Як це буває, я не погоджуюся з обома.

У виділеному вами уривку книга SPSS стверджує, що суміші перетворень (наприклад, природний журнал для однієї змінної, sq root для іншої) не дозволяються. Чому це незаконно? Суміші перетворень не порушують жодних регресійних припущень, про які я знаю. Перевірте будь-які тексти регресії щодо припущень регресії, щоб підтвердити, що це так. Трансформаційні суміші можуть представляти змістовний опис проблему з точки зору їх інтерпретації, але це не питання про те, чи є суміші незаконними чи ні. Хлопець SPSS помиляється.

Що стосується другого тексту, то, знову ж таки, перетворення - це справа вибору аналітиків - чи вони взагалі роблять, чи трансформують усі вхідні дані чи деякі змінні, а не інші. Ніщо з цього не порушує жодних припущень.

Де я вважаю, що друга цитата виходить з рейок, полягає у твердженні, що "... щоб уникнути потенційної мультиколінеарності ... був використаний лише один показник використання земель". Це очевидно погана порада і звучить як щось, що деякі аналітики будуть робити як метод зменшення розмірів, де вони будуть аналізувати купу змінних і вибирати найвищу змінну завантаження на кожен фактор. Це евристика існує вже багато років, і я не використовую і не рекомендую. Знову ж таки, це питання переваги аналітика та навчання. Але ця точка не спрямована на відповіді на ваші конкретні запитання.

Врешті-решт обидві цитати виходять як твердження думок авторів за відсутності будь-яких підтверджуючих доказів на основі наданої інформації.


8
Ми робимо загально подібні моменти, але хочу додати, що хороші тексти пояснюють, що помилки Гаусса є найменш важливим припущенням при моделюванні регресії та не потрібні для багатьох цілей.
Нік Кокс

4
Хороший текст: stat.columbia.edu/~gelman/arm :)
Метью Друрі
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.