Статистика та великі дані

6

Книги для вивчення статистики за допомогою R Яка саме книга я шукаю. Що я шукаю - це книга, яка навчає вас статистиці під час використання R, щоб отримати практичний досвід і, таким чином, допомогти вам вивчити R разом. Я бачив на Amazon багато книг, які намагаються це зробити, але не …

50 r references

8

Книга для читання перед елементами статистичного навчання?

Грунтуючись на цій публікації , я хочу переварити елементи статистичного навчання. На щастя, вона доступна безкоштовно, і я почав її читати. У мене недостатньо знань, щоб це зрозуміти. Чи можете ви порекомендувати книгу, яка є кращим ознайомленням із темами книги? Сподіваюся, щось, що дасть мені знання, необхідні для його розуміння? …

50 machine-learning references

5

Яка різниця між N і N-1 при обчисленні дисперсії населення?

Я не зрозумів, чому існують, Nі N-1під час розрахунку дисперсії населення. Коли ми використовуємо Nі коли ми використовуємо N-1? Клацніть тут для більшої версії Це говорить про те, що коли дуже велика кількість населення, різниці між N і N-1 немає, але це не говорить про те, чому існує N-1 на …

50 variance population

6

Чи регрес хребта марний у великих розмірах ( )? Як OLS не може перевиконати?

Розглянемо стару добру проблему регресії з прогнокторами та розміром вибірки . Звичайна мудрість полягає в тому, що Оцінювач OLS буде перевершувати і, як правило, перевершує оцінку гребінної регресії:Для пошуку оптимального параметра регуляризації стандартно використовувати перехресну перевірку . Тут я використовую 10-кратне резюме. Оновлення уточнення: коли , під "Оцінювачем OLS" я …

50 cross-validation regularization overfitting ridge-regression shrinkage

13

Програмне забезпечення для малювання байєсівських мереж (графічні моделі)

Я шукаю [вільне] програмне забезпечення, яке може створювати красиві графічні моделі, наприклад Будь-які пропозиції будуть вдячні.

50 graphical-model software

3

Як ми визначаємо "відтворювані дослідження"?

Це з'явилося в кількох питаннях зараз, і я щось цікавив. Чи перемістилося поле в цілому до "відтворюваності", орієнтуючись на доступність оригінальних даних, та на код, про який йдеться? Мене завжди вчили, що ядро відтворюваності не обов'язково, як я вже згадував, здатність клацати Виконати і отримувати однакові результати. Підхід до даних …

50 reproducible-research philosophical

5

Правильне написання (з великої літери, курсиву, дефісування) "p-значення"?

Я усвідомлюю, що це педантично і банально, але як дослідник у галузі поза статистикою, з обмеженою формальною освітою у статистиці, мені завжди цікаво, чи правильно я пишу «p-value». Конкретно: Чи має бути "p" з великої літери? Чи має бути "p" курсивом? (Або математичним шрифтом, в TeX?) Чи повинен бути дефіс …

50 hypothesis-testing p-value terminology

1

Кодування "гаряче проти фіктивного" в Scikit-learn

Існує два різні способи кодування категоричних змінних. Скажімо, одна категоріальна змінна має n значень. Одно гаряче кодування перетворює його в n змінних, тоді як фіктивне кодування перетворює його в n-1 змінні. Якщо у нас є k категоріальні змінні, кожна з яких має n значень. Одне гаряче кодування закінчується змінними kn …

50 regression categorical-data data-transformation scikit-learn data-preprocessing

3

Яка інтуїція стоїть за SVD?

Я читав про сингулярне розкладання значення (SVD). Майже у всіх підручниках зазначається, що вона розподіляє матрицю на три матриці із заданою специфікацією. Але яка інтуїція за розбиттям матриці в такій формі? PCA та інші алгоритми зменшення розмірності є інтуїтивно зрозумілими, оскільки алгоритм має властивість візуалізації, але з SVD це не …

50 matrix linear-algebra svd intuition

2

Чи є різниця між "контролем за" та "ігноруванням" інших змінних при множинній регресії?

Коефіцієнт пояснювальної змінної у множинній регресії говорить нам про зв'язок цієї пояснювальної змінної із залежною змінною. Все це, одночасно "контролюючи" інші пояснювальні змінні. Як я бачив це досі: Хоча кожен коефіцієнт розраховується, інші змінні не враховуються, тому я вважаю їх ігнорованими. Тож я маю рацію, коли думаю, що терміни «контрольований» …

50 regression multiple-regression

3

Кластеризація K-Means та EM: як вони пов'язані?

Я вивчив алгоритми кластеризації даних (без нагляду): EM та k-засоби. Я продовжую читати наступне: k-засоби - це варіант ЕМ, з припущеннями, що кластери сферичні. Чи може хтось пояснити вищезгадане речення? Я не розумію, що таке сферичні засоби, і як пов'язані kmeans та EM, оскільки один робить імовірнісне призначення, а інший …

50 machine-learning clustering data-mining k-means expectation-maximization

1

Отримання прогнозованих значень (Y = 1 або 0) з моделі логістичної регресії

Скажімо, у мене є об'єкт класу glm(відповідає логістичній регресійній моделі), і я хотів би перетворити передбачувані ймовірності, отримані за predict.glmдопомогою аргументу, type="response"у бінарні відповіді, тобто або . Який найшвидший і найбільш канонічний спосіб зробити це в R?Y=1Y=1Y=1Y=0Y=0Y=0 Хоча, знову ж таки, мені відомо predict.glm, я не знаю, де саме живе …

50 r generalized-linear-model logistic

4

Навіщо турбуватися з подвійною проблемою при встановленні SVM?

Враховуючи точки даних та мітки , первинна проблема SVM з жорстким відривом -y 1 , … , y n ∈ { - 1 , 1 }х1, … , Хн∈ Rгx1,…,xn∈Rdx_1, \ldots, x_n \in \mathbb{R}^dу1, … , Ун∈ { - 1 , 1 }y1,…,yn∈{−1,1}y_1, \ldots, y_n \in \left \{-1, 1 \right\} …

50 svm

16

Які рекомендації панелі щодо книг з проектування експериментів? В ідеалі, книги все ще мають бути надрукованими або доступними в електронному вигляді, хоча це не завжди можливо. Якщо ви відчуваєте зворушення, додайте кілька слів про те, що так добре в книзі, що було б чудово також. Крім того, націліться на одну …

50 references experiment-design

4

Чому ANOVA еквівалентний лінійній регресії?

Я читав, що ANOVA та лінійна регресія - це одне і те ж. Як це може бути, враховуючи, що вихід ANOVA є деяким значенням і деяким значенням, на основі якого ви робите висновок, чи означає вибірки для різних вибірок однакові чи різні.рFFFppp Але якщо припустити, що засоби не рівні (відкидають …

50 regression anova