Дані про арешти в США в комплекті з R - лише приклад, але зауважу, що розрахунки навантажень у питанні надходять із PCA коваріаційної матриці . Це десь між довільним і безглуздим, оскільки змінні вимірюються в різних масштабах.
Міське населення виглядає як відсоток. Каліфорнія - 91% і найвища.
Три змінні злочину представляються кількістю арештів за злочини, виражені відносно чисельності населення (імовірно, протягом певного періоду часу). Імовірно, це десь задокументовано, чи це арешти на 1000 чи 10000 чи що завгодно.
Середнє значення змінної нападу в даних одиницях становить приблизно 171, а середнє вбивство - приблизно 8. Отже, пояснення ваших навантажень полягає в тому, що значною мірою модель є артефактом: це залежить від дуже різної мінливості змінних.
Отже, хоча в даних є сенс у тому, що за напади існує набагато більше арештів, ніж за вбивства тощо, той відомий (або несподіваний) факт домінує в аналізі.
Це показує, що, як і будь-де в статистиці, ви повинні думати про те, що ви робите в PCA.
Якщо взяти це далі:
Я б заперечив, що відсоток міських краще залишати поза аналізом. Не злочин бути міським; це, звичайно, може служити проксі для змінних, що впливають на злочинність.
PCA на основі кореляційної матриці мав би більше сенсу на мій погляд. Інша можливість - це працювати з логарифмами рівня арешту, а не зі ставками арешту (усі значення позитивні; див. Нижче).
Примітка: У відповіді @ random_guy свідомо використовується матриця коваріації.
Ось деякі зведені статистичні дані. Я використовував Stata, але це зовсім несуттєво.
Variable | Obs Mean Std. Dev. Min Max
-------------+--------------------------------------------------------
urban_pop | 50 65.54 14.47476 32 91
murder | 50 7.788 4.35551 .8 17.4
rape | 50 21.232 9.366384 7.3 46
assault | 50 170.76 83.33766 45 337