Я новачок у науці даних і маю проблему з пошуку кластерів у наборі даних із 200 000 рядків та 50 стовпців у Р.
Оскільки дані мають як числові, так і номінальні змінні, такі методи, як K-засоби, які використовують евклідову міру відстані, не здаються відповідним вибором. Тому я звертаюся до PAM, agnes та hclust, який приймає матрицю відстані як вхідний.
Метод Дейзі може працювати на даних змішаного типу, але матриця відстані є занадто великою: 200 000 разів 200 000 набагато більше, ніж 2 ^ 31-1 (межа довжини вектора до R 3.0.0.)
Новий R 3.0.0, випущений вчора, підтримує довгі вектори довжиною більше 2 ^ 31-1. Але подвійна матриця 200 000 на 200 000 вимагає безперервної оперативної пам’яті більше 16 Гбіт, що неможливо на моїй машині.
Я читав про паралельні обчислення та пакет bigmemory, і не впевнений, чи допоможуть вони: якщо я використовую Дейзі, вона створить велику матрицю, яка ніяк не може вміститись у пам'яті.
Я також читав про публікацію про вибірку: Чи є вибірка релевантною під час «великих даних»?
Тож у моєму випадку, чи доречно використовувати вибірку на наборі даних, кластеризацію на вибірці, а потім зробити висновок про структуру всього набору даних?
Чи можете ви, будь ласка, дати мені якусь пропозицію? Дякую!
Про мою машину:
R версія 3.0.0 (2013-04-03)
Платформа: x86_64-w64-mingw32 / x64 (64-розрядна)
ОС: Windows 7 64bit
ОЗУ: 16,0 Гб