Я думаю, що тут сталося те, що всі змінні були позитивно співвіднесені між собою. У цьому випадку 1-й ПК досить часто виявляється дуже близьким до середнього показника всіх змінних. Якщо всі змінні позитивно співвідносяться з абсолютно однаковим коефіцієнтом кореляції , то 1-й ПК точно пропорційний середньому серед усіх змінних, як я пояснюю тут: Чи можна усереднення всіх змінних сприймати як грубу форму PCA?c
У цьому простому випадку можна насправді математично вивести відносини, про які ви запитуєте. Розглянемо кореляційну матрицю розміру, яка виглядає так:Перший її власний вектор дорівнює , що відповідає середньому [масштабованому] середньому для всіх змінних. Його власне значення - . Сума всіх власних значень, якщо, звичайно, задана сумою всіх діагональних елементів, тобто . Тож частка поясненої дисперсії на першому ПК дорівнюєn×n
⎛⎝⎜⎜⎜1cccc1cccc1cccc1⎞⎠⎟⎟⎟.
(1,1,1,1)⊤/n−−√λ1=1+(n−1)c∑λi=nR2=1n+n−1nc≈c.
Тому в цьому найпростішому випадку частка поясненої дисперсії на першому ПК 100% співвідноситься із середньою кореляцією, а для великих приблизно дорівнює. Це саме те, що ми бачимо на вашому сюжеті.n
Я очікую, що для великих матриць цей результат приблизно буде мати місце, навіть якщо кореляції не зовсім однакові.
Оновлення. Використовуючи фігуру, розміщену у запитанні, можна навіть спробувати оцінити , помітивши, що . Якщо взяти і , то отримаємо . ОП заявила, що дані є "фондовим індексом DAX"; гугливши його, ми бачимо, що він, мабуть, складається з змінних. Непогана відповідність.nn=(1−c)/(R2−c)c=0.5R2−c=0.02n=2530