Припустимо, що у мене є набір даних розміри (напр ), щоб кожен вимір був ідентичним (як альтернатива, кожен вимір ) і незалежні один від одного.
Тепер я малюю випадковий об'єкт із цього набору даних і беру найближчі сусіди та обчислити PCA на цьому наборі. На відміну від того, що можна очікувати, власні значення не всі однакові. У 20 рівномірних розмірах типовий результат виглядає так:
0.11952316626613427, 0.1151758808663646, 0.11170020254046743, 0.1019390988585198,
0.0924502502204256, 0.08716272453538032, 0.0782945015348525, 0.06965903935713605,
0.06346159593226684, 0.054527131148532824, 0.05346303562884964, 0.04348400728546128,
0.042304834600062985, 0.03229641081461124, 0.031532033468325706, 0.0266801529298156,
0.020332085835946957, 0.01825531821510237, 0.01483790669963606, 0.0068195084468626625
Для звичайних розподілених даних результати, схоже, є дуже схожими, принаймні, коли їх масштабувати до загальної суми (the розподіл явно має вищу дисперсію в першу чергу).
Цікаво, чи є результат, який пророкує таку поведінку? Я шукаю тест, чи ряд власних значень дещо регулярний, і скільки власних значень як очікується, а які суттєво відрізняються від очікуваних значень.
Для заданого (невеликого) розміру вибірки , чи є результат, якщо коефіцієнт кореляції для двох змінних є значущим? Навіть ідентифіковані змінні матимуть результат, який не стосується 0, періодично за низьким.