Статистика та великі дані large-data

1

Тестування великого набору даних на предмет нормальності - наскільки і чи надійно це?

Я вивчаю частину мого набору даних, що містить 46840 подвійних значень, розміром від 1 до 1690, згрупованих у дві групи. Для того, щоб проаналізувати відмінності між цими групами, я почав з вивчення розподілу значень, щоб вибрати правильний тест. Дотримуючись інструкції з тестування на нормальність, я зробив qqplot, гістограму та boxplot. …

12 r normal-distribution normality-assumption large-data

4

Тестування гіпотези з великими даними

Як ви виконуєте тести на гіпотези з великими даними? Я написав наступний сценарій MATLAB, щоб підкреслити мою розгубленість. Все, що вона робить, - це генерувати два випадкових ряду та запускати просту лінійну регресію однієї змінної на іншу. Він виконує цю регресію кілька разів, використовуючи різні випадкові значення та повідомляє середні …

12 hypothesis-testing large-data

1

Коли я повинен перестати шукати модель?

Я шукаю модель між запасами енергії та погодою. У мене є ціна MWatt, куплена між країнами Європи, і багато цінності погоди (файли Grib). Кожні години протягом 5 років (2011-2015). Ціна / добу Це на день протягом одного року. Я маю це за годину протягом 5 років. Приклад погоди 3Dscatterplot, у …

11 time-series forecasting predictive-models modeling large-data

1

Поводження з великими наборами даних у навчальних посібниках, кращих практиках тощо

Я R noob, який зобов’язаний робити різного роду аналіз на великих наборах даних у Р. Тому, переглядаючи цей сайт та в інших місцях, мені здалося, що тут багато езотеричних та менш відомих питань - наприклад який пакет використовувати, коли, які перетворення (не) застосовуються до даних тощо. Мені просто цікаво, чи …

11 r large-data

1

Чи можливий масштабний PCA?

Класичний аналіз основного компонента (PCA) - це зробити на матриці вхідних даних, стовпці якої мають нульове середнє значення (тоді PCA може "максимізувати дисперсію"). Цього можна легко досягти шляхом центрування стовпців. Однак, коли вхідна матриця буде рідкою, централізована матриця тепер буде більш рідкою, і - якщо матриця дуже велика - таким …

10 pca algorithms dimensionality-reduction large-data sparse

3

Порівняння вкладених моделей бінарної логістичної регресії, коли велике

Щоб краще задати своє запитання, я надав деякі результати як з 16 змінної моделі ( fit), так і з 17 змінною моделлю ( fit2) нижче (всі змінні прогнозувальника в цих моделях є безперервними, де єдиною відмінністю між цими моделями є те, fitщо не містять змінну 17 (var17)): fit Model Likelihood …

10 r regression logistic model-selection large-data

2

Чи має сенс обчислювати довірчі інтервали та перевіряти гіпотези, коли дані цілої сукупності доступні?

Чи є сенс обчислювати довірчі інтервали та перевіряти гіпотези, коли дані доступні для всієї сукупності? На мою думку, відповідь - ні, оскільки ми можемо точно обчислити справжні значення параметрів. Але тоді, яка максимальна частка даних від вихідної сукупності дозволяє нам використовувати вищезгадані методи?

10 hypothesis-testing confidence-interval sample-size large-data population

3

Як інтерактивно переглядати дані великих часових рядів?

Я часто маю справу з обґрунтованими розмірами даних часових рядів, 50-200 мільйонів парних пар із пов’язаними позначками часу, і хотів би їх динамічно візуалізувати. Чи існує існуюче програмне забезпечення для цього ефективно? Як щодо бібліотек та форматів даних? Збільшити кеш - один із прикладів зосередження бібліотеки на великих часових рядах. …

10 time-series data-visualization large-data interactive-visualization

1

Робота з дуже великими наборами часових рядів

У мене є доступ до дуже великого набору даних. Дані з MEG- записів людей, які слухають музичні уривки, з одного з чотирьох жанрів. Дані такі: 6 Предметів 3 Експериментальні повтори (епохи) 120 випробувань за епоху 8 секунд даних за пробу при 500 Гц (= 4000 зразків) з 275 МЕГ-каналів Отже, …

10 machine-learning feature-selection large-data feature-construction

3

Підходи при навчанні з величезних наборів даних?

В основному, існує два поширених способи навчитися проти величезних наборів даних (коли ви стикаєтесь із обмеженнями часу та простору): Обман :) - використовуйте просто "керований" підмножину для тренувань. Втрата точності може бути незначною через закон зменшення віддачі - прогнозована ефективність моделі часто вирівнюється задовго до того, як у неї будуть …

10 machine-learning large-data model-evaluation train

1

К-означає: Скільки ітерацій у практичних ситуаціях?

Я не маю досвіду в галузі видобутку даних або великих даних, тому хотілося б почути, як ви поділилися певним досвідом. Чи реально люди керують k-засобами, PAM, CLARA тощо на дійсно великому наборі даних? Або вони просто випадковим чином вибирають з нього зразок? Якщо вони просто беруть вибірку набору даних, чи …

10 clustering data-mining k-means convergence large-data

2

Регресія Гауссова процесу для наборів даних з високими розмірами

Просто хотілося дізнатись, чи має хто-небудь досвід застосування регресії процесів Гаусса (GPR) до наборів даних високих розмірів. Я розглядаю деякі з різних розріджених методів GPR (наприклад, рідкісні псевдо входи GPR), щоб побачити, що може працювати для наборів даних високих розмірів, де ідеально підбір функції є частиною процесу вибору параметрів. Будь-які …

10 machine-learning predictive-models large-data gaussian-process

2

Скорочене зменшення розмірів

Враховуючи кількість функцій постійними, Barnes-Hut t-SNE має складністьO(nlogn)O(nlog⁡n)O(n\log n), випадкові прогнози та PCA мають складністьO(n)O(n)O(n) робить їх "доступними" для дуже великих наборів даних. З іншого боку, методи, що спираються на багатовимірне масштабування, мають:O(n2)O(n2)O(n^2) складність. Чи існують інші прийоми зменшення розмірів (крім тривіальних, як дивитись на перший kkk колонки, звичайно), складність …

9 pca dimensionality-reduction large-data multidimensional-scaling tsne

6

Які алгоритми машинного навчання можна масштабувати за допомогою hadoop / map-reduct

Масштабовані алгоритми машинного навчання, схоже, гудуть сьогодні. Кожна компанія не обробляє великих даних . Чи є підручник, в якому йдеться про те, які алгоритми машинного навчання можна масштабувати, використовуючи паралельні архітектури, такі як Map-Reduce, а які не можуть? Або якісь відповідні папери?

9 machine-learning large-data

2

Параметричне, напівпараметричне та непараметричне завантаження для змішаних моделей

Наступні трансплантати взяті з цієї статті . Я новачок у завантажувальній програмі та намагаюся реалізувати параметричне, напівпараметричне та непараметричне завантажувальне завантаження для лінійної змішаної моделі з R bootпакетом. R код Ось мій Rкод: library(SASmixed) library(lme4) library(boot) fm1Cult <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=Cultivation) fixef(fm1Cult) boot.fn …

9 r mixed-model bootstrap central-limit-theorem stable-distribution time-series hypothesis-testing markov-process r correlation categorical-data association-measure meta-analysis r anova confidence-interval lm r bayesian multilevel-analysis logit regression logistic least-squares eda regression notation distributions random-variable expected-value distributions markov-process hidden-markov-model r variance group-differences microarray r descriptive-statistics machine-learning references r regression r categorical-data random-forest data-transformation data-visualization interactive-visualization binomial beta-distribution time-series forecasting logistic arima beta-regression r time-series seasonality large-data unevenly-spaced-time-series correlation statistical-significance normalization population group-differences demography

Запитання з тегом «large-data»