Чому перетворення даних в журнал перед проведенням аналізу основних компонентів?


16

Я слідую підручник тут: http://www.r-bloggers.com/computing-and-visualizing-pca-in-r/, щоб краще зрозуміти PCA.

У посібнику використовується набір даних Iris і застосовується перетворення журналу до PCA:

Зауважте, що у наведеному нижче коді ми застосовуємо перетворення журналу до безперервних змінних, як це запропоновано [1] та встановлених centerта scaleрівним TRUEу виклику prcompдля стандартизації змінних перед застосуванням PCA.

Чи може хтось пояснити мені простою англійською мовою, чому ви спочатку використовуєте функцію журналу на перших чотирьох стовпцях набору даних Iris. Я розумію, що це має відношення до прийняття відносних даних, але я збентежений, яка саме функція журналу, центру та масштабу.

Посилання [1] вище стосується Venables і Ripley, сучасної прикладної статистики з S-PLUS , Розділ 11.1, де коротко сказано:

Дані є фізичними вимірюваннями, тому обгрунтована початкова стратегія полягає в роботі в масштабі журналу. Це робилося протягом усього часу.


Відповіді:


19

Набір даних райдужної оболонки - прекрасний приклад для вивчення PCA. Однак, перші чотири стовпці, що описують довжину і ширину часточок і пелюсток, не є прикладом сильно перекошених даних. Тому журнал-перетворення даних не сильно змінює результати, оскільки отримане обертання основних компонентів є абсолютно незмінним шляхом перетворення журналу.

В інших ситуаціях перетворення журналу - хороший вибір.

Ми виконуємо PCA, щоб отримати уявлення про загальну структуру набору даних. Ми централізуємо, масштабуємо, а іноді і перетворюємо журнал, щоб відфільтрувати деякі тривіальні ефекти, які можуть домінувати над нашим PCA. Алгоритм PCA, в свою чергу, знайде обертання кожного ПК для мінімізації залишків у квадраті, а саме суму квадратичних перпендикулярних відстаней від будь-якого зразка до ПК. Великі значення мають, як правило, високі важелі.

Уявіть, що потрібно ввести два нових зразки в дані райдужки. Квітка з довжиною пелюстки 430 см та однією довжиною пелюсток 0,0043 див. Обидві квітки дуже ненормальні, оскільки в 100 разів більше і в 1000 разів менше, ніж середні приклади. Варіант першої квітки величезний, так що перші ПК в основному описують відмінності між великою квіткою та будь-якою іншою квіткою. Кластеризація видів неможлива через ту сторону. Якщо дані перетворені в журнал, тепер абсолютне значення описує відносну зміну. Зараз маленька квітка є найбільш ненормальною. Тим не менш, можна як містити всі зразки в одному зображенні, так і забезпечувати справедливу групування видів. Ознайомтеся з цим прикладом:

data(iris) #get data
#add two new observations from two new species to iris data
levels(iris[,5]) = c(levels(iris[,5]),"setosa_gigantica","virginica_brevis")
iris[151,] = list(6,3,  430  ,1.5,"setosa_gigantica") # a big flower
iris[152,] = list(6,3,.0043,1.5  ,"virginica_brevis") # a small flower

#Plotting scores of PC1 and PC" without log transformation
plot(prcomp(iris[,-5],cen=T,sca=T)$x[,1:2],col=iris$Spec)

введіть тут опис зображення

#Plotting scores of PC1 and PC2 with log transformation
plot(prcomp(log(iris[,-5]),cen=T,sca=T)$x[,1:2],col=iris$Spec)

введіть тут опис зображення


2
Хороша демонстрація та сюжети.
shadowtalker

3

Ну, інша відповідь наводить приклад, коли журнал-перетворення використовується для зменшення впливу крайніх значень чи витрат.
Інший загальний аргумент виникає, коли ви намагаєтесь проаналізувати дані, які мультиплікативно складені замість адитивно - PCA та FA модель за допомогою їх математичних складів. Мультиплікативнийкомпозиції трапляються в найпростішому випадку в таких фізичних даних, як поверхня і об'єм тіл (функціонально) залежних від (наприклад) трьох параметрів довжини, ширини, глибини. Можна відтворити композиції з історичного прикладу раннього PCA, я думаю, що це називається «проблема Балла (або« кубики »)» тощо. Одного разу я зіграв з даними цього прикладу і виявив, що дані, трансформовані журналом, дають набагато приємнішу і чіткішу модель для складання вимірюваних обсягів та даних поверхні за допомогою трьох одновимірних вимірювань.

Окрім таких простих прикладів, якщо ми враховуємо взаємодію даних соціальних досліджень , то ми звичайно їх вважаємо, а також мультиплікативно складеними вимірюваннями більш елементарних елементів. Отже, якщо ми розглянемо конкретно взаємодію, перетворення журналу може бути спеціальним корисним інструментом для отримання математичної моделі де-композиції.


Чи можете ви перелічити деякі посилання, які можуть краще пояснити "мультиплікативні" композиції? Дуже дякую!
Аматія

1
@Amatya - Я не знайшов "проблему з коробкою", але (німецька) обговорення сайту на кубіках, що містить ширину, довжину, висоту в якості основних предметів та поверхонь та об'єм у вигляді мультиплікативно поєднаних додаткових елементів. Можливо, включених формул для визначення досить. Дивіться sgipt.org/wisms/fa/Quader/q00.htm
Gottfried Helms

1
Ну, і я забув - давня дискусія про це go.helms-net.de/stat/fa/SGIPT_Quader.htm
Gottfried Helms

@GottfriedHelms Я все ще не дуже розумію, чому, якщо ми стандартизуємо змінні, нам потрібно також перетворити їх на журнал. Я розумію загальний принцип зменшення небажаного впливу надзвичайних людей, але якщо ми вже їх стандартизуємо (центрируємо, масштабуємо), схоже, що журнал, який його перетворює, додатково спотворює дані.
Ю Чен

@YuChen - будь-яка лог-трансформація перетворює мультиплікативно склад на аддитивний склад, а добавна композиція є основним припущенням (окрім лінійності тощо) для всіх типів компонентів та факторного аналізу. Отже, якщо ваші дані містять у собі мультиплікативний склад, перетворення журналу має бути варіантом, який варто розглянути.
Готфрід Гельмс
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.