Чи дозволено використовувати середні показники на наборі даних для поліпшення співвідношення?


9

У мене є набір даних із залежною та незалежною змінною. Обидва - це не часовий ряд. У мене 120 спостережень. Коефіцієнт кореляції 0,43

Після цього розрахунку я додав стовпчик для обох змінних із середнім значенням на кожні 12 спостережень, у результаті чого з’явилися 2 нові колонки зі 108 спостереженнями (пари). Коефіцієнт кореляції цих стовпців становить 0,77

Здається, я покращив кореляцію таким чином. Чи дозволено це робити? Я збільшив потужність пояснення незалежної змінної за допомогою середніх значень?


4
Все, що ви зробили, це запустити дані через згладжуючий фільтр. Це робиться весь час при обробці сигналу, і це цілком прийнятно і, як правило, потрібно, перш ніж дані є навіть корисними. Він виключає шум, який завжди переважає в електронних вимірах. Однак, чи прийнятна вона для вашої конкретної проблеми, залежить від специфіки того, що ви намагаєтеся досягти, і, мабуть, значною мірою, скільки "шуму" проти "якості" у ваших даних. Я щойно помітив "Обидва - це не часовий ряд", тому я підозрюю, що те, що ви зробили, є безглуздим, оскільки зміна порядку змінює результати
Данк

Дякую всім. Моя залежна змінна - це серія щомісячних результатів системи ставок (ці результати не пов'язані). Незалежна змінна є результатом побудованого мною показника. Цей показник генерує бал щодо того, наскільки екстремальними були результати спортивних матчів у конкретному місяці (ці спортивні результати не пов'язані). Я підозрював, що те, що я робив, безглуздо, хоча мене це здивувало, що коефіцієнт кореляції настільки покращився.
користувач2165379

2
Я не впевнений, але я думаю, що усереднення будь-яких даних дасть подібні результати. Я б подумав, що усереднення зменшує афекти людей, що вижили. Таким чином, кореляція повинна була б покращитися. Хоча, я думаю, що деякі матеріанці можуть придумати добре підібрані дані, які можуть спричинити зворотний вплив, але я б не очікував, що подібні дані з’являться в реальному світі.
Данк

Я не міг побачити, чи вказали ви, для чого ці дані. Однак загалом, коли ви представляєте ваші дані визначеній аудиторії, розкриття інформації про те, як отримані дані, є доброю практикою.
Джон Міллікен

3
Яке співвідношення усереднених значень, призначених представляти? Звичайно, це вже не є розумною оцінкою кореляції між початковими змінними.
Glen_b -Встановіть Моніку

Відповіді:


15

Давайте подивимось на два вектори, перший з них

    2 6 2 6 2 6 2 6 2 6 2 6

друге векторне буття

   6 2 6 2 6 2 6 2 6 2 6 2

Розрахунок співвідношення Пірсона ви отримаєте

cor(a,b)
[1] -1

Однак якщо взяти середнє значення послідовних пар для значень, обидва вектори однакові. Ідентичні вектори мають кореляцію 1.

  4 4 4 4 4 4  

Цей простий приклад ілюструє зворотний бік вашого методу.

Редагувати : Для більш повного пояснення: Коефіцієнт кореляції обчислюється наступним чином.

E[(XμX)(YμY)]σX σY

Усереднення деяких s і деяких s змінює відмінності між і , а також різницю між і .XYXμXYμY


1
Я додав кілька націнок, але ви можете і слід чітко визначати терміни та . μσ
Нік Кокс

Дякую. Чи означає це, що мої результати "завищені" поласканими за допомогою середніх показників і що завжди краще використовувати спостереження без усереднення?
користувач2165379

Для тестування гіпотез ви повинні дивитися на самі дані, а не на середні показники. В інших областях описова статистика може бути корисним інструментом. Ви також повинні ознайомитись з іншими засобами описової статистики, такими як квантові (особливо середні) та вищі (централізовані) моменти, такі як дисперсія, косостість і куртоз. Однак у нашому випадку це не корисно. Вектори a і b мають однакові кванти, однакові моменти і ті ж централізовані моменти.
Ферді

1
Усереднення має тенденцію до збільшення кореляцій, видаляючи квазі випадковий розсіювання, але досить збочне усереднення може підштовхнути кореляції до нуля.
Нік Кокс

Дякую. Отже, якщо усереднення має тенденцію до збільшення співвідношення взагалі, це означає, що це не поліпшення? Або це вдосконалення, оскільки квазі випадковий розкид видалений?
користувач2165379

10

Усереднення може бути привабливим або зручним. Це також може бути джерелом обману, в гіршому випадку - обманом, тому ретельно ступайте навіть тоді, коли є чітке обгрунтування усереднення.

Ось така ситуація, що це не дуже гарна ідея. Вважайте, що при ретельному визначенні груп ви (як правило) могли звести ваші дані до двох підсумкових точок, кожна з яких відрізняється від двох змінних; і тоді ви б домоглися ідеального співвідношення з величиною . Вітаємо, чи ні! Поліпшення тут є хибним без поважних незалежних причин для процедури. Вам не потрібно підходити до цього крайнього випадку, щоб підходити до небезпеки.1

Є деякі ситуації, в яких усереднення може мати сенс. Наприклад, якщо сезонні коливання представляють незначний або взагалі не представляють інтересу, то усереднення до річних значень створює зменшений набір даних, в якому ви можете зосередитися на цих річних значеннях.

У різних галузях дослідники можуть бути зацікавлені у співвідношенні в зовсім різних масштабах, наприклад, між безробіттям та злочинністю для осіб, графств, штатів, країн (замінити якими б термінами не було сенсу).

Інтерес, а часто також і головне джерело проблем з висновками, полягає в тлумаченні того, що відбувається в різних масштабах або рівнях. Наприклад, висока кореляція між рівнем безробіття та рівнем злочинності у районах не обов'язково означає, що безробітні мають більш високу тенденцію бути злочинцями; вам потрібні дані про осіб, щоб це було зрозуміло. Надання даних може бути максимально незручним, оскільки дані доступні лише в найменш цікавих масштабах, можливо, з економії чи конфіденційності.

Зазначу також, що в першу чергу багато вимірювань часто становлять середні значення за невеликі часові інтервали та / або невеликі проміжки інтервалу, тому дані часто надходять у середньому в будь-якому випадку.


3
Я повторюю відповідь @ Ферді, підкреслюючи, що середнє значення може бути різним. Це створює додаткове джерело невизначеності. Складність особливо гостра при об'єднанні невеликих площ на більші.
Нік Кокс
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.