Статистика та великі дані

Питання та відповіді для людей, зацікавлених у статистиці, машинному навчанні, аналізі даних, інтелектуальному аналізу даних та візуалізації даних

3
Лінійність PCA
Однак PCA вважається лінійною процедурою: PCA(X)≠PCA(X1)+PCA(X2)+…+PCA(Xn),ПСА(Х)≠ПСА(Х1)+ПСА(Х2)+…+ПСА(Хн),\mathrm{PCA}(X)\neq \mathrm{PCA}(X_1)+\mathrm{PCA}(X_2)+\ldots+\mathrm{PCA}(X_n), де . Це означає, що власні вектори, отримані PCA на матрицях даних , не дорівнюють власним векторам, отриманим PCA, на суму матриць даних . Але не визначення лінійної функції :X=X1+X2+…+XnХ=Х1+Х2+…+ХнX=X_1+X_2+\ldots+X_nX i fXiХiX_iXiХiX_ifff f(x+y)=f(x)+f(y)?f(х+у)=f(х)+f(у)?f(x+y)=f(x)+f(y)? То чому PCA вважається "лінійним", якщо він не задовольняє цій …
35 pca  linear 

11
Чому генерується 8 випадкових біт рівномірно на (0, 255)?
Я генерую 8 випадкових бітів (або 0, або 1) і об'єдную їх разом, щоб утворити 8-бітове число. Просте моделювання Python дає рівномірний розподіл на дискретному наборі [0, 255]. Я намагаюся виправдати, чому це має сенс у моїй голові. Якщо я порівняю це з гортанням 8 монет, чи не очікуване значення …

5
Думайте, як байєсий, перевіряйте як частолюбиця: Що це означає?
Я дивлюся на деякі слайди лекцій з курсу інформатики, які можна знайти тут: https://github.com/cs109/2015/blob/master/Lectures/01-Introduction.pdf Я, на жаль, не можу побачити відео для цієї лекції, і в один момент на слайді ведучий має такий текст: Деякі основні принципи Думайте, як байєсий, переконайтесь, як часто лікар (примирення) Хтось знає, що це насправді …

2
Підвищення градієнта для лінійної регресії - чому це не працює?
Дізнаючись про Gradient Boosting, я не чув про обмеження щодо властивостей "слабкого класифікатора", який метод використовує для побудови та ансамблю моделі. Однак я не міг уявити додаток ГБ, що використовує лінійну регресію, і насправді, коли я виконував деякі тести - це не працює. Я випробовував найбільш стандартний підхід з градієнтом …

4
Як LSTM запобігає проблемі градієнта, що зникає?
LSTM був винайдений спеціально для уникнення проблеми, що втрачає градієнт. Це слід зробити з каруселем постійної помилки (CEC), який на наведеній нижче схемі (від Greff et al. ) Відповідає циклу навколо комірки . (джерело: deeplearning4j.org ) І я розумію, що цю частину можна розглядати як якусь функцію тотожності, тому похідна …

3
Як вибрати метод кластеризації? Як перевірити рішення кластера (гарантувати вибір методу)?
Однією з найбільш важливих проблем кластерного аналізу є те, що, можливо, нам доведеться робити різні висновки, коли базуватися на різних методах кластеризації (включаючи різні методи зв’язку в ієрархічній кластеризації). Мені хотілося б дізнатися вашу думку з цього приводу - який метод ви виберете та як. Можна сказати, «найкращий метод кластеризації …


2
Що таке регуляризація еластичної сітки, і як вона вирішує недоліки Ріджа ( ) та Лассо ( )?
Чи завжди переважна регуляризація еластичної сітки перед Lasso & Ridge, оскільки, здається, вирішує недоліки цих методів? Що таке інтуїція та яка математика за еластичною сіткою?

6
Чи всі методи моделювання є якоюсь формою Монте-Карло?
Чи існує метод моделювання, який не є Монте-Карло? Усі методи моделювання передбачають підстановку випадкових чисел у функцію, щоб знайти діапазон значень для функції. Чи всі методи моделювання по суті є методами Монте-Карло?

3
PCA і поїзд / тест розділилися
У мене є набір даних, для якого у мене є кілька наборів двійкових міток. Для кожного набору міток я готую класифікатор, оцінюючи його за допомогою перехресної перевірки. Я хочу зменшити розмірність за допомогою аналізу основних компонентів (PCA). Моє запитання: Чи можливо зробити PCA один раз для всього набору даних, а …

2
Множинна регресія або частковий коефіцієнт кореляції? І відносини між ними
Я навіть не знаю, чи має це питання сенс, але в чому різниця між множинною регресією та частковою кореляцією (крім очевидних відмінностей між кореляцією та регресією, на що я не прагну)? Я хочу з’ясувати наступне: у мене є дві незалежні змінні ( , ) та одна залежна змінна ( ). …

4
Як розподіл може мати нескінченну середню величину та дисперсію?
Було б вдячно, якщо можна було навести наступні приклади: Розподіл з нескінченною середньою і нескінченною дисперсією. Розподіл з нескінченною середньою і кінцевою дисперсією. Розподіл з кінцевою середньою і нескінченною дисперсією. Розподіл з кінцевою середньою і кінцевою дисперсією. Це походить від мене, коли я бачу ці незнайомі терміни (нескінченна середня, нескінченна …

2
Призначення функції зв’язку в узагальненій лінійній моделі
Яке призначення функції зв’язку як складової узагальненої лінійної моделі? Навіщо нам це потрібно? У Вікіпедії зазначено: Це може бути зручно співставити домен функції зв’язку з діапазоном середнього значення функції розподілу Яка перевага в цьому?

2
Якою є скоригована R-квадратна формула в lм в R і як її слід інтерпретувати?
Яка точна формула використовується в R lm() для скоригованого R-квадрата? Як я можу це інтерпретувати? Відрегульовані формули r-квадрата Здається, існує кілька формул для обчислення скорегованого R-квадрата. Формула Веррі:1−(1−R2)(n−1)(n−v)1−(1−R2)(n−1)(n−v)1-(1-R^2)\frac{(n-1)}{(n-v)} Формула МакНемара:1−(1−R2)(n−1)(n−v−1)1−(1−R2)(n−1)(n−v−1)1-(1-R^2)\frac{(n-1)}{(n-v-1)} Формула Господа:1−(1−R2)(n+v−1)(n−v−1)1−(1−R2)(n+v−1)(n−v−1)1-(1-R^2)\frac{(n+v-1)}{(n-v-1)} Формула Штейна:1−[(n−1)(n−k−1)(n−2)(n−k−2)(n+1)n](1−R2)1−[(n−1)(n−k−1)(n−2)(n−k−2)(n+1)n](1−R2)1-\big[\frac{(n-1)}{(n-k-1)}\frac{(n-2)}{(n-k-2)}\frac{(n+1)}{n}\big](1-R^2) Описи підручника Згідно з підручником Філда, « Відкриття статистики за допомогою R» (2012, стор. 273) R …

6
Найкращий метод для коротких часових рядів
У мене є питання, пов'язане з моделюванням коротких часових рядів. Справа не в тому, чи моделювати їх , а як. Який метод ви б рекомендували для моделювання (дуже) коротких часових рядів (скажімо, про довжину )? Під «кращим» я маю на увазі тут найбільш надійний, тобто найменш схильний до помилок через …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.