Яка різниця між нормалізацією та стандартизацією?

118

На роботі ми обговорювали це, оскільки мій начальник ніколи не чув про нормалізацію. У лінійній алгебрі нормалізація ніби позначає ділення вектора на його довжину. А в статистиці стандартизація, схоже, посилається на віднімання середнього, а потім ділення на його SD. Але вони здаються взаємозамінними і з іншими можливостями.

Коли ви створюєте якусь універсальну оцінку, яка складається з різних показників, які мають різні засоби та різні SD, ви б їх нормалізували, стандартизували чи щось інше? Одна людина сказала мені, що це лише питання взяття кожної метрики та розділення їх на свій SD, окремо. Потім підсумовуючи два. І це призведе до загальної оцінки, яка може бути використана для судження обох показників. $2$

Наприклад, скажіть, у вас була кількість людей, які приймають метро на роботу (в Нью-Йорку) та кількість людей, які їхали на роботу (в Нью-Йорку).

Train ⟶ x

$\text{Train} \longrightarrow x$

Car ⟶ y

$\text{Car} \longrightarrow y$

Якщо ви хотіли створити універсальний бал, щоб швидко повідомити про коливання руху, ви не можете просто додати та тому що буде набагато більше людей, які їдуть на поїзді. У Нью-Йорку живе 8 мільйонів людей, плюс туристи. Ось мільйони людей щодня їздять у поїзді, сотні тисяч людей у вагонах. Тому їх потрібно перетворити на аналогічний масштаб, щоб порівняти. $\text{mean}(x)$ $\text{mean}(y)$

Якщо $\text{mean}(x) = 8,000,000$

і $\text{mean}(y) = 800,000$

Ви б нормалізували & тоді суму? Ви б стандартизували & а потім суму? Або ви поділили кожного на відповідний SD, а потім суму? Для того, щоб дістатись до числа, яке при коливанні представляє загальні коливання трафіку. $x$ $y$ $x$ $y$

Будь-яка стаття чи глави книг для довідок були б вдячні. ДЯКУЮ!

Також ось ще один приклад того, що я намагаюся зробити.

Уявіть, що ви декан коледжу, і ви обговорюєте вимоги до вступу. Можливо, ви хочете, щоб студенти мали принаймні певний бал та певний бал тесту. Було б непогано, як би вони обидва були в одній шкалі, тому що тоді ви можете просто скласти їх і сказати, "будь-хто з принаймні 7.0 може отримати допуск". Таким чином, якщо майбутній студент має 4,0 ГПД, вони можуть отримати низький бал, як тест 3,0, і все одно приймуть участь. І навпаки, якщо хтось мав 3,0 ГПД, він все одно може отримати визнання з оцінкою 4,0 тесту.

Але це не так. ACT за шкалою 36 балів, а більшість GPA мають 4,0 (деякі 4,3, так дратує). Оскільки я не можу просто додати ACT та GPA, щоб отримати якийсь універсальний бал, як я можу їх перетворити так, щоб вони могли бути додані, таким чином створюючи універсальну оцінку прийому. І тоді, будучи деканом, я міг просто автоматично приймати будь-кого з оцінкою вище певного порогу. Або навіть автоматично приймати всіх, рейтинг яких у топ-95% .... такі речі.

Це нормалізація? стандартизація? або просто розділивши кожен їх SD та підсумовуючи?

descriptive-statistics normalization standardization

— Кріс
джерело

4

Остання частина запитання звучить так, що ви намагаєтесь створити оцінку з кількох атрибутів. Докладніше про це дивіться на запитання та відповіді на stats.stackexchange.com/q/9137 та stats.stackexchange.com/q/9358 . Зокрема, зауважте, що ні нормалізація, ні стандартизація не мають прямого відношення до проблеми декана.

— whuber

65

Нормалізація переносить значення в діапазон [0,1]. Це може бути корисно в деяких випадках, коли всі параметри повинні мати однакову позитивну шкалу. Однак видатки з набору даних втрачаються.

X_{c h a n g e d} = \frac{X - X_{m i n}}{X_{m a x} - X_{m i n}}

$X_{changed} = \frac{X - X_{min}}{X_{max}-X_{min}}$

Стандартизація масштабує дані з середнім значенням ( ) 0 і стандартним відхиленням ( ) 1 (одиниця дисперсії). $\mu$ $\sigma$

X_{c h a n g e d} = \frac{X - μ}{σ}

$X_{changed} = \frac{X - \mu}{\sigma}$

Для більшості застосувань рекомендується стандартизація.

— Вівек Кумар
джерело

7

Чи можете ви пояснити, чому "нормалізація даних із набору даних втрачається" при нормалізації даних?

— учень

3

в такому разі перешкодження масштабів впливатиме на результат і не втрачається.

— Ферас

@learner Уявіть, що у вас є [1 2 3 4 5 1000 2 4 5 2000 ...]. Нормоване значення 1000 точок даних стало б меншим, оскільки у нас 2000

— COLD ICE

3

@COLDICE Я думаю, це залежить від алгоритму нормалізації, який ви використовуєте. Наприклад, якщо ви розділили кожне число у вашому наборі даних на максимальне значення (наприклад, 2000), воно буде знаходитися в межах від 0 до 1, і це не вплине на людей, що втрачають статус.

— Еліссон

3

Я думаю, що це взагалі не впливає на людей, що не працюють, інакше це не було б зроблено в програмному забезпеченні для виявлення аномалій.

— Еліссон

44

У діловому світі "нормалізація" зазвичай означає, що діапазон значень "нормалізується та становить від 0,0 до 1,0". "Стандартизація" зазвичай означає, що діапазон значень "стандартизований" для вимірювання кількості стандартних відхилень значення від його середнього значення. Однак не всі погодились би з цим. Найкраще пояснити свої визначення, перш ніж використовувати їх.

У будь-якому випадку, ваша трансформація повинна забезпечити щось корисне.

У прикладі поїзда / вагона ви отримуєте щось, не знаючи, скільки стандартних відхилень від їх середнього значення, кожне значення? Якщо побудувати ці «стандартизовані» заходи один проти одного як сюжет xy, ви можете побачити кореляцію (див. Перший графік справа):

http://en.wikipedia.org/wiki/Correlation_and_dependence

Якщо так, то це для вас щось означає?

Що стосується вашого другого прикладу, якщо ви хочете "прирівняти" GPA від однієї шкали до іншої шкали, що спільного для цих масштабів? Іншими словами, як ви могли перетворити ці мінімуми на еквівалентні, а максимуми - на еквівалентні?

Ось приклад "нормалізації":

Нормалізація

Як тільки ви отримуєте ваші бали за балами GPA та ACT у взаємозамінній формі, чи має сенс зважувати бали ACT та GPA по-різному? Якщо так, то яке зважування щось для вас означає?

Редагувати 1 (05.03.2011) =========================================== =

По-перше, я б перевірив посилання, запропоновані whuber вище. Суть полягає в тому, що в обох ваших двох змінних проблемах вам доведеться придумати "еквівалентність" однієї змінної проти іншої. І спосіб відрізняти одну змінну від іншої. Іншими словами, навіть якщо ви можете спростити це до простого лінійного відношення, вам знадобляться "ваги", щоб відрізняти одну змінну від іншої.

Ось приклад двох змінних проблем:

Багатоатрибутні утиліти

З останньої сторінки, якщо ви можете сказати, що стандартизований рух поїздів U1(x)проти стандартизованого руху вагона U2(y)є "додатково незалежним", ви, можливо, зможете піти простим рівнянням, таким як:

U(x, y) = k1*U1(x) + (1 - k1)*U2(y)

Де k1 = 0,5 означає, що ви небайдужі до стандартизованого руху вагонів / поїздів. Більш високий k1 означав би U1(x)важливіший рух поїздів .

Однак якщо ці дві змінні не є "адитивно незалежними", тоді вам доведеться скористатися більш складним рівнянням. Одна сторінка показана на сторінці 1:

U(x, y) = k1*U1(x) + k2*U2(y) + (1-k1-k2)*U1(x)*U2(y)

В будь-якому випадку вам доведеться придумати утиліту, U(x, y)яка має сенс.

Ті самі загальні концепції зважування / порівняння стосуються вашої проблеми GPA / ACT. Навіть якщо вони "нормалізовані", а не "стандартизовані".

Останнє питання. Я знаю, що вам це не сподобається, але визначення терміна "адекватно незалежний" знаходиться на сторінці 4 наступного посилання. Я шукав менш прискіпливе визначення, але не зміг його знайти. Ви можете озирнутися, щоб знайти щось краще.

Додатково незалежний

Цитуючи посилання:

Intuitively, the agent prefers being both healthy and wealthy
more than might be suggested by considering the two attributes
separately. It thus displays a preference for probability
distributions in which health and wealth are positively
correlated.

Як запропоновано вгорі цієї відповіді, якщо ви побудуєте стандартизований рух поїздів проти стандартизованого руху вагона на ділянці xy, ви можете побачити співвідношення. Якщо так, то ви застрягли з вищевказаним нелінійним рівнянням корисності або чимось подібним.

— рахунок_080
джерело

Гаразд. Ти правий. Найкраще пояснити мої визначення. І коли я ще раз замислююся над цим, то це не визначення, яке мені потрібно. Що мені потрібно - це відповідний метод створення 1 універсальної оцінки. Будь то показник прийому чи показник трафіку. Як можна створити універсальну метрику, яка є функцією інших змінних, які були перетворені для розміщення їх обох у подібному масштабі? І не хвилюйтеся про ваги. Я розумію, що навіть просто пряме підсумовування зважує показники 1/1. Але це зараз мене менше турбує.

— Кріс

@Chris, я додав свою відповідь як редакцію вище.

— bill_080

2

(+1) Добре редагувати. @Chris: Вас можуть зацікавити примітки до короткого набору слайдів PowerPoint тут : це презентація на тему, яку я подарував нетехнічним людям. Я згадую це, оскільки він містить деякі ілюстрації та вказівки щодо того, як "створити універсальну метрику".

— whuber

Посилання утиліти з багатьма атрибутами мертве, статтю можна знайти тут web.archive.org/web/20090530032248/http://www.doc.ic.ac.uk/~frk/…

— mgilbert

6

Відповідь проста, але вам це не сподобається: це залежить. Якщо ви оцінюєте 1 стандартне відхилення від обох балів однаково, то стандартизація - це шлях, який слід пройти (зауважте: насправді ви вивчаєте , оскільки ви поділяєте за оцінкою SD населення).

Якщо ні, то, швидше за все, стандартизація стане хорошим першим кроком, після чого ви можете надати більше ваги одному з балів, помноживши на коефіцієнт вибору.

— Нік Саббе
джерело

Отже, ви говорите, принаймні, почніть з того, що я описав як «Стандартизація» (студіювання), а потім відрегулюйте ваги, щоб найкраще відповідати даним / сценарію? Що має сенс. Я просто не розумію, чому я поділявся б на SD. І при дослідженні я знайшов щось, що називається «Стандартизована середня різниця» .... і я просто плутаю себе. Здається, що це повинно бути просто. Ви або розміщуєте їх як в масштабі-A, так і один у тій же шкалі, що й інший, а потім підсумовуйте. Але не. Натомість я розгублений, і всі Wiki поки що вийшли.

— Кріс

0

Щоб вирішити проблему GPA / ACT або поїзд / автомобіль, чому б не скористатись геометричним середнім ?

n√ (a1 × a2 × ... × an)

Де a*значення від розподілу і nіндекс розподілу.

Це геометричне середнє значення гарантує, що кожне значення не відповідає своїй шкалі, однаково сприяє середньому значенню. Дивіться більше на " Геометричне середнє"

— LingxB
джерело

3

Я не бачу, що геометричне середнє було б доречним для ситуацій, які описує ОП.

— gung

1

Я згоден з Гунгом. Геометричне середнє не є вирішенням цієї проблеми.

— Ферді

Геометричне середнє запобіжить зменшення внеску менших чисел. Отже, це може бути альтернативою стандартизації або нормалізації, коли доводиться поєднувати нерівні шкали.

— rnso

0

У моїй галузі, наука даних, нормалізація - це трансформація даних, яка дозволяє легко порівняти дані нижче за потоком. Існує багато типів нормалізації. Масштабування є одним з них. Ви також можете записати дані або зробити все, що завгодно. Тип нормалізації, який ви використовуєте, залежатиме від результату, який ви хочете, оскільки всі нормалізації перетворюють дані в щось інше.

Ось кілька з того, що я вважаю прикладами нормалізації. Нормалізація масштабування Нормалізація квантилу

— yevishere
джерело