Методика скорочення даних для виявлення типів країн


11

Викладаю вступний курс економічної географії. Щоб допомогти моїм студентам розвинути краще розуміння видів країн, що зустрічаються в сучасній світовій економіці, та оцінити методи скорочення даних, я хочу створити завдання, яке створює типологію різних країн (наприклад, з високим рівнем доходу, тривала тривалість життя mfg з доданою вартістю; експортер природних ресурсів з високим доходом середня висока тривалість життя; Німеччина є елементом першого типу, а Ємен - прикладом другого типу). Для цього використовуються загальнодоступні дані ПРООН (які, якщо я пригадую правильно, містять соціально-економічні дані про трохи менше 200 країн; вибачте, що регіональних даних немає).

Перед цим призначенням було б ще одне, яке просить їх (використовуючи ті самі --- значною мірою інтервал або коефіцієнт рівня даних --- дані) вивчити кореляції між цими ж змінними.

Я сподіваюся, що вони спершу розвинуть інтуїцію щодо видів відносин між різними змінними (наприклад, позитивний зв'язок між тривалістю життя та [різними показниками] багатства; позитивний взаємозв'язок між багатством та різноманітністю експорту). Тоді, використовуючи техніку скорочення даних, компоненти чи фактори мали б певний інтуїтивний сенс (наприклад, фактор / компонент 1 фіксує важливість багатства; фактор / компонент 2 фіксує важливість освіти).

Зважаючи на те, що це студенти другого-четвертого курсу, які часто мають обмежений вплив на аналітичне мислення загалом, яку єдину методику зменшення даних ви б запропонували як найбільш прийнятну для другого завдання? Це дані про населення, тому інфекційна статистика (p-vlaues тощо) насправді не потрібна.

Відповіді:


10

Як дослідницький метод, PCA - хороший перший вибір для такого завдання, як цей ІМО. Їм також було б непогано потрапити до цього; здається, що багато з них раніше не бачили головних компонентів.

З точки зору даних я також вказую на показники Світового банку, які надзвичайно повно: http://data.worldbank.org/indicator .


5

Я погоджуюся з JMS, і PCA здається гарною ідеєю після вивчення початкових кореляцій та розсіювання між змінними для кожного округу. У цій темі є кілька корисних пропозицій щодо впровадження PCA в нематематичному плані.

Я б також запропонував використовувати невеликі численні карти для візуалізації просторових розподілів кожної зі змінних (і на цьому сайті є кілька хороших прикладів цього питання на сайті gis.se). Я думаю, що це працює особливо добре, якщо для порівняння у вас обмежена кількість ареальних одиниць і ви використовуєте гарну колірну гамму (наприклад, цей приклад у блозі Ендрю Гельмана).

На жаль, природа будь-яких наборів даних "країн світу", які я підозрюю, часто призводить до розріджених даних (тобто багатьох зниклих країн), ускладнюючи географічну візуалізацію. Але такі методи візуалізації повинні бути корисні і в інших ситуаціях, а також для вашого курсу.


+1, приємні посилання. Порівняння карт змінних з картами результатів PCA теж може бути цікавим.
JMS

Посилання на введення PCA в нематематичному плані було корисним, оскільки допомогло мені відчути тонку різницю між PCA та факторним аналізом. Пропозиції щодо ГІС / картографування також дуже корисні, тому що я не думав про візуалізацію просторового розподілу змінних. Для цієї групи студентів це допоможе їм зрозуміти основні структури світової економіки таким чином, щоб не мій мій бла-бла-бла.
rabidotter

1
Хороші сюжети часто б’ють бла-бла-бла :)
JMS,

4

Швидка додана примітка: Незалежно від перерахованих вище методів, ви хочете спершу перевірити розподіл змінних, оскільки для багатьох з них буде потрібно «спочатку» перетворити їх за допомогою логарифму. Це дозволить виявити деякі відносини набагато краще, ніж використання оригінальних змінних.


3
+1 Зазвичай таку відповідь слід просто розміщувати як коментар, але порада настільки важлива, що вона виграє від усіх можливих акцентів. Зокрема, результати PCA, ймовірно, будуть неінформативними, поки змінні не будуть належним чином виражені.
whuber

2

Ви можете використовувати розкладання CUR як альтернативу PCA. Для розкладання CUR ви можете звернутися до [1] або [2]. При розкладанні CUR C означає виділені стовпці, R - виділені рядки, U - матрицю зв'язку. Дозвольте перефразовувати інтуїцію, що стоїть за декомпромісією CUR, як зазначено в [1];

Хоча усічений SVD широко застосовується, самі вектори та можуть бракувати будь-якого значення з точки зору поля, з якого виводяться дані. Наприклад, власний векторv iuivi

[(1/2)age − (1/ √2)height + (1/2)income]

будучи одним із значущих некорельованих "факторів" чи "особливостей" набору даних про особливості людей, не є особливо інформативним та значущим.

Приємно в CUR - це те, що основні стовпці - це фактичні стовпці (або рядки) і їх краще інтерпретувати на відміну від PCA (який використовує перекладений SVD).

Алгоритм, наведений у [1], легко здійснити, і ви можете грати з ним, змінюючи поріг помилки та отримуючи різну кількість підстав.

[1] М. В. Махоні та П. Дрінеас, “Матричні декомпозиції CUR для вдосконаленого аналізу даних”, Праці Національної академії наук Сполучених Штатів Америки, т. 106, січень 2009, с. 697-702.

[2] Дж. Сун, Ю. Сі, Х. Чжан та К. Фалуцос, «Менше - більше: компактна матрична декомпозиція для великих розріджених графіків», Матеріали Сьомої міжнародної конференції SIAM з обміну даними, Citeseer, 2007, p. . 366.


2

Залежно від ваших цілей, класифікація реєстрів за групами може бути найкраще досягнута якимось методом кластеризації. Для відносно невеликої кількості випадків ієрархічна кластеризація, як правило, найкраще підходить, принаймні, на дослідницькій фазі, тоді як для більш відшліфованого рішення ви можете звернутися до певного ітераційного процесу, наприклад K-засобів. Відповідно до того, яке програмне забезпечення ви використовуєте, можливо також використовувати процес, який знаходиться в SPSS, але я не знаю, де ще, називається двоступінчаста кластеризація, яка швидка, хоча і непрозора, і, здається, дає хороші результати.

Кластерний аналіз дає класифікаційне рішення, яке максимізує розбіжність між групами, мінімізуючи дисперсію всередині зазначених груп. Це також, ймовірно, дасть результати, які легше інтерпретувати.


2

Я пропоную кластеризацію змінних та спостереження (окремо), щоб пролити світло на набір даних. Змінна кластеризація (скажімо, використання Spearmean як міра подібності, як у функції пакету R ) допоможе зрозуміти, які змінні "працюють разом".ρ2Hmiscvarclus


1

Іншим варіантом буде використання карт самоорганізації (SOM). Будь-яке уявлення про те, яким програмним забезпеченням користуватимуться студенти? Я знаю, що R, наприклад, має пару реалізацій SOM. Однак, СОМ може провалити тест на "компоненти факторів, що мають інтуїтивний сенс". (Не обов'язково правда для PCA, або ...)


Вибачте за затримку у відповіді. Студенти будуть використовувати Minitab 16, який має деякі традиційні методи зменшення даних, згадані вище. Я перегляну карти, що самоорганізуються, але сумніваюся, чи це було б доречно для тих студентів, які я отримую на другому курсі бакалаврату.
rabidotter
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.