Я другий коментар @suncoolsu: розмірність вашого набору даних - не єдиний критерій, який повинен орієнтувати вас на певне програмне забезпечення. Наприклад, якщо ви просто плануєте проводити кластеризацію без нагляду або використовувати PCA, є кілька спеціальних інструментів, які справляються з великими наборами даних, як це часто зустрічається в геномних дослідженнях.
Тепер, R (64 біт) обробляє великі обсяги даних досить добре, і у вас ще є можливість використовувати дисковий сховище замість доступу до оперативної пам'яті, але бачити CRAN Task View High-Performance і паралельні обчислення з R . Стандартний GLM легко вмістить 20 000 осіб. (але див. також speedglm ) протягом розумного часу, як показано нижче:
> require(MASS)
> n <- 20000
> X <- mvrnorm(n, mu=c(0,0), Sigma=matrix(c(1,.8,.8,1), 2, 2))
> df <- cbind.data.frame(X, grp=gl(4, n/4), y=sample(c(0,1), n, rep=TRUE))
> system.time(glm(y ~ ., data=df))
user system elapsed
0.361 0.018 0.379
Для більш конкретної ілюстрації я використав R для обробки та аналізу великих генетичних даних (800 особин x 800k SNP , де основною статистичною моделлю був стратифікований GLM з кількома коваріатами (2 хв); це стало можливим завдяки ефективній R та Коди C, доступні в пакеті snpMatrix (для порівняння, така ж модель займала близько 8 хв за допомогою спеціального програмного забезпечення C ++ ( планкість ). Я також працював над клінічним дослідженням (12 к пацієнтів х 50 змінних, що цікавлять), і R відповідає моїм потребам Нарешті, наскільки я знаю, пакет lme4 - це єдине програмне забезпечення, яке дозволяє підходити до моделі змішаних ефектів з неврівноваженими та великими наборами даних (як це має місце в масштабному оцінюванні освіти).
Stata / SE - це ще одне програмне забезпечення, яке може працювати з великим набором даних . SAS і SPSS - це файлове програмне забезпечення, тому вони оброблять великі обсяги даних. Порівняльний огляд програмного забезпечення для обміну даними доступний в Інструментах обробки даних: який з них найкращий для CRM . Для візуалізації також є безліч варіантів; можливо, вдалий початок - графіка великих наборів даних: візуалізація мільйона ( переглянута в JSS P Murrell) та всіх пов'язаних тем на цьому веб-сайті.