Запитання з тегом «large-data»

"Великі дані" стосуються ситуацій, коли кількість спостережень (точок даних) настільки велика, що потребує змін у тому, як аналітик даних думає чи проводить аналіз. (Не плутати з «високою розмірністю».)

1
Тестування великого набору даних на предмет нормальності - наскільки і чи надійно це?
Я вивчаю частину мого набору даних, що містить 46840 подвійних значень, розміром від 1 до 1690, згрупованих у дві групи. Для того, щоб проаналізувати відмінності між цими групами, я почав з вивчення розподілу значень, щоб вибрати правильний тест. Дотримуючись інструкції з тестування на нормальність, я зробив qqplot, гістограму та boxplot. …

4
Тестування гіпотези з великими даними
Як ви виконуєте тести на гіпотези з великими даними? Я написав наступний сценарій MATLAB, щоб підкреслити мою розгубленість. Все, що вона робить, - це генерувати два випадкових ряду та запускати просту лінійну регресію однієї змінної на іншу. Він виконує цю регресію кілька разів, використовуючи різні випадкові значення та повідомляє середні …

1
Коли я повинен перестати шукати модель?
Я шукаю модель між запасами енергії та погодою. У мене є ціна MWatt, куплена між країнами Європи, і багато цінності погоди (файли Grib). Кожні години протягом 5 років (2011-2015). Ціна / добу Це на день протягом одного року. Я маю це за годину протягом 5 років. Приклад погоди 3Dscatterplot, у …

1
Поводження з великими наборами даних у навчальних посібниках, кращих практиках тощо
Я R noob, який зобов’язаний робити різного роду аналіз на великих наборах даних у Р. Тому, переглядаючи цей сайт та в інших місцях, мені здалося, що тут багато езотеричних та менш відомих питань - наприклад який пакет використовувати, коли, які перетворення (не) застосовуються до даних тощо. Мені просто цікаво, чи …
11 r  large-data 

1
Чи можливий масштабний PCA?
Класичний аналіз основного компонента (PCA) - це зробити на матриці вхідних даних, стовпці якої мають нульове середнє значення (тоді PCA може "максимізувати дисперсію"). Цього можна легко досягти шляхом центрування стовпців. Однак, коли вхідна матриця буде рідкою, централізована матриця тепер буде більш рідкою, і - якщо матриця дуже велика - таким …

3
Порівняння вкладених моделей бінарної логістичної регресії, коли велике
Щоб краще задати своє запитання, я надав деякі результати як з 16 змінної моделі ( fit), так і з 17 змінною моделлю ( fit2) нижче (всі змінні прогнозувальника в цих моделях є безперервними, де єдиною відмінністю між цими моделями є те, fitщо не містять змінну 17 (var17)): fit Model Likelihood …

2
Чи має сенс обчислювати довірчі інтервали та перевіряти гіпотези, коли дані цілої сукупності доступні?
Чи є сенс обчислювати довірчі інтервали та перевіряти гіпотези, коли дані доступні для всієї сукупності? На мою думку, відповідь - ні, оскільки ми можемо точно обчислити справжні значення параметрів. Але тоді, яка максимальна частка даних від вихідної сукупності дозволяє нам використовувати вищезгадані методи?

3
Як інтерактивно переглядати дані великих часових рядів?
Я часто маю справу з обґрунтованими розмірами даних часових рядів, 50-200 мільйонів парних пар із пов’язаними позначками часу, і хотів би їх динамічно візуалізувати. Чи існує існуюче програмне забезпечення для цього ефективно? Як щодо бібліотек та форматів даних? Збільшити кеш - один із прикладів зосередження бібліотеки на великих часових рядах. …

1
Робота з дуже великими наборами часових рядів
У мене є доступ до дуже великого набору даних. Дані з MEG- записів людей, які слухають музичні уривки, з одного з чотирьох жанрів. Дані такі: 6 Предметів 3 Експериментальні повтори (епохи) 120 випробувань за епоху 8 секунд даних за пробу при 500 Гц (= 4000 зразків) з 275 МЕГ-каналів Отже, …

3
Підходи при навчанні з величезних наборів даних?
В основному, існує два поширених способи навчитися проти величезних наборів даних (коли ви стикаєтесь із обмеженнями часу та простору): Обман :) - використовуйте просто "керований" підмножину для тренувань. Втрата точності може бути незначною через закон зменшення віддачі - прогнозована ефективність моделі часто вирівнюється задовго до того, як у неї будуть …

1
К-означає: Скільки ітерацій у практичних ситуаціях?
Я не маю досвіду в галузі видобутку даних або великих даних, тому хотілося б почути, як ви поділилися певним досвідом. Чи реально люди керують k-засобами, PAM, CLARA тощо на дійсно великому наборі даних? Або вони просто випадковим чином вибирають з нього зразок? Якщо вони просто беруть вибірку набору даних, чи …

2
Регресія Гауссова процесу для наборів даних з високими розмірами
Просто хотілося дізнатись, чи має хто-небудь досвід застосування регресії процесів Гаусса (GPR) до наборів даних високих розмірів. Я розглядаю деякі з різних розріджених методів GPR (наприклад, рідкісні псевдо входи GPR), щоб побачити, що може працювати для наборів даних високих розмірів, де ідеально підбір функції є частиною процесу вибору параметрів. Будь-які …

2
Скорочене зменшення розмірів
Враховуючи кількість функцій постійними, Barnes-Hut t-SNE має складністьO(nlogn)O(nlog⁡n)O(n\log n), випадкові прогнози та PCA мають складністьO(n)O(n)O(n) робить їх "доступними" для дуже великих наборів даних. З іншого боку, методи, що спираються на багатовимірне масштабування, мають:O(n2)O(n2)O(n^2) складність. Чи існують інші прийоми зменшення розмірів (крім тривіальних, як дивитись на перший kkk колонки, звичайно), складність …

6
Які алгоритми машинного навчання можна масштабувати за допомогою hadoop / map-reduct
Масштабовані алгоритми машинного навчання, схоже, гудуть сьогодні. Кожна компанія не обробляє великих даних . Чи є підручник, в якому йдеться про те, які алгоритми машинного навчання можна масштабувати, використовуючи паралельні архітектури, такі як Map-Reduce, а які не можуть? Або якісь відповідні папери?

2
Параметричне, напівпараметричне та непараметричне завантаження для змішаних моделей
Наступні трансплантати взяті з цієї статті . Я новачок у завантажувальній програмі та намагаюся реалізувати параметричне, напівпараметричне та непараметричне завантажувальне завантаження для лінійної змішаної моделі з R bootпакетом. R код Ось мій Rкод: library(SASmixed) library(lme4) library(boot) fm1Cult <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=Cultivation) fixef(fm1Cult) boot.fn …
9 r  mixed-model  bootstrap  central-limit-theorem  stable-distribution  time-series  hypothesis-testing  markov-process  r  correlation  categorical-data  association-measure  meta-analysis  r  anova  confidence-interval  lm  r  bayesian  multilevel-analysis  logit  regression  logistic  least-squares  eda  regression  notation  distributions  random-variable  expected-value  distributions  markov-process  hidden-markov-model  r  variance  group-differences  microarray  r  descriptive-statistics  machine-learning  references  r  regression  r  categorical-data  random-forest  data-transformation  data-visualization  interactive-visualization  binomial  beta-distribution  time-series  forecasting  logistic  arima  beta-regression  r  time-series  seasonality  large-data  unevenly-spaced-time-series  correlation  statistical-significance  normalization  population  group-differences  demography 

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.