Розрахунковий розподіл власних значень для iid (рівномірного або нормального) даних


9

Припустимо, що у мене є набір даних d розміри (напр d=20), щоб кожен вимір був ідентичним XiU[0;1] (як альтернатива, кожен вимір XiN[0;1]) і незалежні один від одного.

Тепер я малюю випадковий об'єкт із цього набору даних і беру k=3dнайближчі сусіди та обчислити PCA на цьому наборі. На відміну від того, що можна очікувати, власні значення не всі однакові. У 20 рівномірних розмірах типовий результат виглядає так:

0.11952316626613427, 0.1151758808663646, 0.11170020254046743, 0.1019390988585198,
0.0924502502204256, 0.08716272453538032, 0.0782945015348525, 0.06965903935713605, 
0.06346159593226684, 0.054527131148532824, 0.05346303562884964, 0.04348400728546128, 
0.042304834600062985, 0.03229641081461124, 0.031532033468325706, 0.0266801529298156, 
0.020332085835946957, 0.01825531821510237, 0.01483790669963606, 0.0068195084468626625

Для звичайних розподілених даних результати, схоже, є дуже схожими, принаймні, коли їх масштабувати до загальної суми 1 (the N[0;1]d розподіл явно має вищу дисперсію в першу чергу).

Цікаво, чи є результат, який пророкує таку поведінку? Я шукаю тест, чи ряд власних значень дещо регулярний, і скільки власних значень як очікується, а які суттєво відрізняються від очікуваних значень.

Для заданого (невеликого) розміру вибірки k, чи є результат, якщо коефіцієнт кореляції для двох змінних є значущим? Навіть ідентифіковані змінні матимуть результат, який не стосується 0, періодично за низькимk.


1
хммм, чи могли б ви надрукувати ці результати меншою кількістю сиг-фіг? Я не можу їх легко розібрати ...
shabbychef

Ну, як ви бачите, величина викликає інтерес. Наївно, можна було б очікувати, що всі вони мають однакову величину.
Мав QUIT - Anonymous-Mousse

Відповіді:


7

Існує велика література про розподіл власних значень для випадкових матриць (можна спробувати гуглінг теорії випадкових матриць). Зокрема, розподіл Марченко-Пастур прогнозує розподіл власних значень для матриці коваріаціїi.i.d.дані із середнім нулем та рівною дисперсією, оскільки кількість змінних та спостережень переходить до нескінченності. Тісно пов'язане розподіл Вігнера з півколом.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.