Нормалізація проти масштабування


45

Чим відрізняються дані "Нормалізація" від даних "Масштабування"? До цього часу я не думав, що обидва терміни стосуються одного і того ж процесу, але тепер я розумію, що є щось більше, чого я не знаю / не розумію. Крім того, якщо є різниця між нормалізацією та масштабуванням, коли нам слід використовувати нормалізацію, але не масштабування і навпаки?

Будь ласка, докладно поясніть приклад.


6
Нормалізація, як правило, означає перетворити ваші спостереження у f ( x ) (де f є вимірюваною, як правило, безперервною функцією) таким чином, щоб вони виглядали нормально розподіленими . Деякі приклади перетворень для нормалізації даних - силові перетворення . Масштабування просто означає f ( x ) = c x , c R , це множення ваших спостережень на постійну c, яка змінює масштаб (наприклад, від нанометрів до кілометрів). хf(х)ff(х)=cхcRc


нормалізація - це також метод масштабування, такий же, як стандартизація

У мене недостатньо репутації статистики, щоб відповісти. Я думаю, що в заголовку вашого питання має бути «Нормалізація проти стандартизації», оскільки це два різні підходи до масштабування. Нормалізація - це перенесення значень в діапазон 0 і 1, а стандартизація зміщує розподіл на значення 0 як середнє, а 1 - на стандартне відхилення.
Хамід Гейдарян

Відповіді:


23

Мені не відомо "офіційне" визначення, і навіть якщо воно є, вам не слід довіряти цьому, оскільки ви побачите, що воно використовується непослідовно на практиці.

Як сказано, масштабування в статистиці зазвичай означає лінійне перетворення форми .f(х)=ах+б

Нормалізація може означати застосування трансформації так, щоб перетворені вами дані розподілялися приблизно нормально, але це також може означати розміщення різних змінних у загальному масштабі. Стандартизація, яка означає віднімання середнього та ділення на стандартне відхилення, є прикладом подальшого використання. Як ви можете бачити, це також приклад масштабування. Прикладом для першого може бути взяття журналу для ненормальних розподілених даних.

Але те, що вам слід забрати, це те, що, читаючи його, ви повинні шукати більш точний опис того, що робив автор. Іноді це можна отримати з контексту.


14

Масштабування - це особистий вибір щодо того, щоб цифри відчували себе правильно, наприклад, між нулем і одиницею, або сто і сто. Наприклад, перетворення даних у міліметрах у метри, тому що це зручніше, або імперське в метричне.

Хоча нормалізація стосується масштабування до зовнішнього "стандарту" - локальної норми - наприклад, видалення середнього значення та ділення на вибіркове стандартне відхилення, наприклад, щоб ваші відсортовані дані можна порівняти з кумулятивним нормальним, або кумулятивним Пуассоном, або що завгодно.

Тож якщо викладач чи керівник хоче, щоб дані «нормалізувалися», це означає «переосмислити це по- моєму » ;-)


9

Я не знаю, чи ви маєте на увазі саме це, але я бачу, що багато людей посилаються на «Нормалізація», що означає «стандартизацію даних». Стандартизація перетворює ваші дані, щоб вона мала середнє значення 0 і стандартне відхилення 1:

x <- (x - mean(x)) / sd(x)

Я також бачу людей, які використовують термін «Нормалізація для масштабування даних» як перетворення ваших даних у діапазон 0-1:

x <- (x - min(x)) / (max(x) - min(x))

Це може заплутати!

Обидві методи мають свої плюси і мінуси. Якщо масштабувати набір даних із занадто великою кількістю видатків, ваші дані, що не є іншими, можуть закінчитися за дуже невеликий проміжок часу. Отже, якщо у вашому наборі даних є занадто багато інших людей, ви можете розглянути питання про його стандартизацію. Тим не менш, коли ви зробите це, у вас виявляться негативні дані (іноді цього не потрібно) і без обмежених даних (ви також цього не хочете).


3

Центрирование означає підставлення середнього значення випадкової величини зі змінних. Тобто x -xi

Масштабування означає ділення змінної за її стандартним відхиленням. Тобто xi / s

Поєднання двох називається нормалізацією або стабілізацією. Тобто x-xi / s


Питання - дублікат.
Майкл Черник
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.