Статистика та великі дані

3

Однак PCA вважається лінійною процедурою: PCA(X)≠PCA(X1)+PCA(X2)+…+PCA(Xn),ПСА(Х)≠ПСА(Х1)+ПСА(Х2)+…+ПСА(Хн),\mathrm{PCA}(X)\neq \mathrm{PCA}(X_1)+\mathrm{PCA}(X_2)+\ldots+\mathrm{PCA}(X_n), де . Це означає, що власні вектори, отримані PCA на матрицях даних , не дорівнюють власним векторам, отриманим PCA, на суму матриць даних . Але не визначення лінійної функції :X=X1+X2+…+XnХ=Х1+Х2+…+ХнX=X_1+X_2+\ldots+X_nX i fXiХiX_iXiХiX_ifff f(x+y)=f(x)+f(y)?f(х+у)=f(х)+f(у)?f(x+y)=f(x)+f(y)? То чому PCA вважається "лінійним", якщо він не задовольняє цій …

35 pca linear

11

Чому генерується 8 випадкових біт рівномірно на (0, 255)?

Я генерую 8 випадкових бітів (або 0, або 1) і об'єдную їх разом, щоб утворити 8-бітове число. Просте моделювання Python дає рівномірний розподіл на дискретному наборі [0, 255]. Я намагаюся виправдати, чому це має сенс у моїй голові. Якщо я порівняю це з гортанням 8 монет, чи не очікуване значення …

35 binomial random-generation uniform

5

Думайте, як байєсий, перевіряйте як частолюбиця: Що це означає?

Я дивлюся на деякі слайди лекцій з курсу інформатики, які можна знайти тут: https://github.com/cs109/2015/blob/master/Lectures/01-Introduction.pdf Я, на жаль, не можу побачити відео для цієї лекції, і в один момент на слайді ведучий має такий текст: Деякі основні принципи Думайте, як байєсий, переконайтесь, як часто лікар (примирення) Хтось знає, що це насправді …

35 bayesian data-mining frequentist

2

Підвищення градієнта для лінійної регресії - чому це не працює?

Дізнаючись про Gradient Boosting, я не чув про обмеження щодо властивостей "слабкого класифікатора", який метод використовує для побудови та ансамблю моделі. Однак я не міг уявити додаток ГБ, що використовує лінійну регресію, і насправді, коли я виконував деякі тести - це не працює. Я випробовував найбільш стандартний підхід з градієнтом …

35 regression machine-learning boosting ensemble gradient

4

Як LSTM запобігає проблемі градієнта, що зникає?

LSTM був винайдений спеціально для уникнення проблеми, що втрачає градієнт. Це слід зробити з каруселем постійної помилки (CEC), який на наведеній нижче схемі (від Greff et al. ) Відповідає циклу навколо комірки . (джерело: deeplearning4j.org ) І я розумію, що цю частину можна розглядати як якусь функцію тотожності, тому похідна …

35 neural-networks lstm

3

Як вибрати метод кластеризації? Як перевірити рішення кластера (гарантувати вибір методу)?

Однією з найбільш важливих проблем кластерного аналізу є те, що, можливо, нам доведеться робити різні висновки, коли базуватися на різних методах кластеризації (включаючи різні методи зв’язку в ієрархічній кластеризації). Мені хотілося б дізнатися вашу думку з цього приводу - який метод ви виберете та як. Можна сказати, «найкращий метод кластеризації …

35 clustering validation model-evaluation hierarchical-clustering

7

Чому нульову гіпотезу часто прагнуть відхилити?

Я сподіваюся, що я маю сенс з назвою. Часто нульова гіпотеза формується з наміром її відкинути. Чи є в цьому причина, чи це просто умовність?

35 hypothesis-testing

2

Що таке регуляризація еластичної сітки, і як вона вирішує недоліки Ріджа ( ) та Лассо ( )?

Чи завжди переважна регуляризація еластичної сітки перед Lasso & Ridge, оскільки, здається, вирішує недоліки цих методів? Що таке інтуїція та яка математика за еластичною сіткою?

35 regression lasso regularization ridge-regression elastic-net

6

Чи всі методи моделювання є якоюсь формою Монте-Карло?

Чи існує метод моделювання, який не є Монте-Карло? Усі методи моделювання передбачають підстановку випадкових чисел у функцію, щоб знайти діапазон значень для функції. Чи всі методи моделювання по суті є методами Монте-Карло?

35 monte-carlo

3

PCA і поїзд / тест розділилися

У мене є набір даних, для якого у мене є кілька наборів двійкових міток. Для кожного набору міток я готую класифікатор, оцінюючи його за допомогою перехресної перевірки. Я хочу зменшити розмірність за допомогою аналізу основних компонентів (PCA). Моє запитання: Чи можливо зробити PCA один раз для всього набору даних, а …

35 machine-learning classification pca cross-validation

2

Множинна регресія або частковий коефіцієнт кореляції? І відносини між ними

Я навіть не знаю, чи має це питання сенс, але в чому різниця між множинною регресією та частковою кореляцією (крім очевидних відмінностей між кореляцією та регресією, на що я не прагну)? Я хочу з’ясувати наступне: у мене є дві незалежні змінні ( , ) та одна залежна змінна ( ). …

35 multiple-regression regression-coefficients partial-correlation

4

Як розподіл може мати нескінченну середню величину та дисперсію?

Було б вдячно, якщо можна було навести наступні приклади: Розподіл з нескінченною середньою і нескінченною дисперсією. Розподіл з нескінченною середньою і кінцевою дисперсією. Розподіл з кінцевою середньою і нескінченною дисперсією. Розподіл з кінцевою середньою і кінцевою дисперсією. Це походить від мене, коли я бачу ці незнайомі терміни (нескінченна середня, нескінченна …

35 distributions variance mean

2

Призначення функції зв’язку в узагальненій лінійній моделі

Яке призначення функції зв’язку як складової узагальненої лінійної моделі? Навіщо нам це потрібно? У Вікіпедії зазначено: Це може бути зручно співставити домен функції зв’язку з діапазоном середнього значення функції розподілу Яка перевага в цьому?

35 regression generalized-linear-model link-function irls

2

Якою є скоригована R-квадратна формула в lм в R і як її слід інтерпретувати?

Яка точна формула використовується в R lm() для скоригованого R-квадрата? Як я можу це інтерпретувати? Відрегульовані формули r-квадрата Здається, існує кілька формул для обчислення скорегованого R-квадрата. Формула Веррі:1−(1−R2)(n−1)(n−v)1−(1−R2)(n−1)(n−v)1-(1-R^2)\frac{(n-1)}{(n-v)} Формула МакНемара:1−(1−R2)(n−1)(n−v−1)1−(1−R2)(n−1)(n−v−1)1-(1-R^2)\frac{(n-1)}{(n-v-1)} Формула Господа:1−(1−R2)(n+v−1)(n−v−1)1−(1−R2)(n+v−1)(n−v−1)1-(1-R^2)\frac{(n+v-1)}{(n-v-1)} Формула Штейна:1−[(n−1)(n−k−1)(n−2)(n−k−2)(n+1)n](1−R2)1−[(n−1)(n−k−1)(n−2)(n−k−2)(n+1)n](1−R2)1-\big[\frac{(n-1)}{(n-k-1)}\frac{(n-2)}{(n-k-2)}\frac{(n+1)}{n}\big](1-R^2) Описи підручника Згідно з підручником Філда, « Відкриття статистики за допомогою R» (2012, стор. 273) R …

35 r regression r-squared lm shrinkage

6

Найкращий метод для коротких часових рядів

У мене є питання, пов'язане з моделюванням коротких часових рядів. Справа не в тому, чи моделювати їх , а як. Який метод ви б рекомендували для моделювання (дуже) коротких часових рядів (скажімо, про довжину )? Під «кращим» я маю на увазі тут найбільш надійний, тобто найменш схильний до помилок через …

35 time-series forecasting small-sample