Статистика та великі дані

Питання та відповіді для людей, зацікавлених у статистиці, машинному навчанні, аналізі даних, інтелектуальному аналізу даних та візуалізації даних

6
Яку книгу рекомендується одночасно починати вивчати статистику за допомогою R?
Книги для вивчення статистики за допомогою R Яка саме книга я шукаю. Що я шукаю - це книга, яка навчає вас статистиці під час використання R, щоб отримати практичний досвід і, таким чином, допомогти вам вивчити R разом. Я бачив на Amazon багато книг, які намагаються це зробити, але не …
50 r  references 

8
Книга для читання перед елементами статистичного навчання?
Грунтуючись на цій публікації , я хочу переварити елементи статистичного навчання. На щастя, вона доступна безкоштовно, і я почав її читати. У мене недостатньо знань, щоб це зрозуміти. Чи можете ви порекомендувати книгу, яка є кращим ознайомленням із темами книги? Сподіваюся, щось, що дасть мені знання, необхідні для його розуміння? …

5
Яка різниця між N і N-1 при обчисленні дисперсії населення?
Я не зрозумів, чому існують, Nі N-1під час розрахунку дисперсії населення. Коли ми використовуємо Nі коли ми використовуємо N-1? Клацніть тут для більшої версії Це говорить про те, що коли дуже велика кількість населення, різниці між N і N-1 немає, але це не говорить про те, чому існує N-1 на …

6
Чи регрес хребта марний у великих розмірах ( )? Як OLS не може перевиконати?
Розглянемо стару добру проблему регресії з прогнокторами та розміром вибірки . Звичайна мудрість полягає в тому, що Оцінювач OLS буде перевершувати і, як правило, перевершує оцінку гребінної регресії:Для пошуку оптимального параметра регуляризації стандартно використовувати перехресну перевірку . Тут я використовую 10-кратне резюме. Оновлення уточнення: коли , під "Оцінювачем OLS" я …


3
Як ми визначаємо "відтворювані дослідження"?
Це з'явилося в кількох питаннях зараз, і я щось цікавив. Чи перемістилося поле в цілому до "відтворюваності", орієнтуючись на доступність оригінальних даних, та на код, про який йдеться? Мене завжди вчили, що ядро ​​відтворюваності не обов'язково, як я вже згадував, здатність клацати Виконати і отримувати однакові результати. Підхід до даних …

5
Правильне написання (з великої літери, курсиву, дефісування) "p-значення"?
Я усвідомлюю, що це педантично і банально, але як дослідник у галузі поза статистикою, з обмеженою формальною освітою у статистиці, мені завжди цікаво, чи правильно я пишу «p-value». Конкретно: Чи має бути "p" з великої літери? Чи має бути "p" курсивом? (Або математичним шрифтом, в TeX?) Чи повинен бути дефіс …

1
Кодування "гаряче проти фіктивного" в Scikit-learn
Існує два різні способи кодування категоричних змінних. Скажімо, одна категоріальна змінна має n значень. Одно гаряче кодування перетворює його в n змінних, тоді як фіктивне кодування перетворює його в n-1 змінні. Якщо у нас є k категоріальні змінні, кожна з яких має n значень. Одне гаряче кодування закінчується змінними kn …

3
Яка інтуїція стоїть за SVD?
Я читав про сингулярне розкладання значення (SVD). Майже у всіх підручниках зазначається, що вона розподіляє матрицю на три матриці із заданою специфікацією. Але яка інтуїція за розбиттям матриці в такій формі? PCA та інші алгоритми зменшення розмірності є інтуїтивно зрозумілими, оскільки алгоритм має властивість візуалізації, але з SVD це не …

2
Чи є різниця між "контролем за" та "ігноруванням" інших змінних при множинній регресії?
Коефіцієнт пояснювальної змінної у множинній регресії говорить нам про зв'язок цієї пояснювальної змінної із залежною змінною. Все це, одночасно "контролюючи" інші пояснювальні змінні. Як я бачив це досі: Хоча кожен коефіцієнт розраховується, інші змінні не враховуються, тому я вважаю їх ігнорованими. Тож я маю рацію, коли думаю, що терміни «контрольований» …

3
Кластеризація K-Means та EM: як вони пов'язані?
Я вивчив алгоритми кластеризації даних (без нагляду): EM та k-засоби. Я продовжую читати наступне: k-засоби - це варіант ЕМ, з припущеннями, що кластери сферичні. Чи може хтось пояснити вищезгадане речення? Я не розумію, що таке сферичні засоби, і як пов'язані kmeans та EM, оскільки один робить імовірнісне призначення, а інший …

1
Отримання прогнозованих значень (Y = 1 або 0) з моделі логістичної регресії
Скажімо, у мене є об'єкт класу glm(відповідає логістичній регресійній моделі), і я хотів би перетворити передбачувані ймовірності, отримані за predict.glmдопомогою аргументу, type="response"у бінарні відповіді, тобто або . Який найшвидший і найбільш канонічний спосіб зробити це в R?Y=1Y=1Y=1Y=0Y=0Y=0 Хоча, знову ж таки, мені відомо predict.glm, я не знаю, де саме живе …


16
Рекомендовані книги з дизайну експериментів?
Які рекомендації панелі щодо книг з проектування експериментів? В ідеалі, книги все ще мають бути надрукованими або доступними в електронному вигляді, хоча це не завжди можливо. Якщо ви відчуваєте зворушення, додайте кілька слів про те, що так добре в книзі, що було б чудово також. Крім того, націліться на одну …

4
Чому ANOVA еквівалентний лінійній регресії?
Я читав, що ANOVA та лінійна регресія - це одне і те ж. Як це може бути, враховуючи, що вихід ANOVA є деяким значенням і деяким значенням, на основі якого ви робите висновок, чи означає вибірки для різних вибірок однакові чи різні.рFFFppp Але якщо припустити, що засоби не рівні (відкидають …
50 regression  anova 

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.