Статистика та великі дані

Питання та відповіді для людей, зацікавлених у статистиці, машинному навчанні, аналізі даних, інтелектуальному аналізу даних та візуалізації даних


5
Яка різниця між нормалізацією та стандартизацією?
На роботі ми обговорювали це, оскільки мій начальник ніколи не чув про нормалізацію. У лінійній алгебрі нормалізація ніби позначає ділення вектора на його довжину. А в статистиці стандартизація, схоже, посилається на віднімання середнього, а потім ділення на його SD. Але вони здаються взаємозамінними і з іншими можливостями. Коли ви створюєте …

8
Чи означає причинно-наслідковий зв’язок кореляцію?
Кореляція не означає причинно-наслідкового зв’язку, оскільки може бути багато пояснень кореляції. Але чи означає причинно-наслідковий зв’язок кореляцію? Інтуїтивно я думаю, що наявність причинно-наслідкових зв’язків означає, що обов'язково існує певна кореляція. Але моя інтуїція не завжди добре допомагала мені в статистиці. Чи означає причинно-наслідковий зв’язок кореляцію?

9
Коли нормально зняти перехоплення в лінійній регресійній моделі?
Я запускаю лінійні регресійні моделі і цікавлюсь, які умови для зняття терміна перехоплення. Порівнюючи результати двох різних регресій, де одна має перехоплення, а інша ні, я помічаю, що функції без перехоплення набагато вище. Чи є певні умови чи припущення, яких я повинен дотримуватися, щоб переконатися, що вилучення терміну перехоплення є …

9
Числовий приклад для розуміння Очікування-Максимізація
Я намагаюся зрозуміти алгоритм ЕМ, щоб мати можливість його реалізувати та використовувати. Я провів цілий день, читаючи теорію та документ, де ЕМ використовується для відстеження літака, використовуючи інформацію про положення, що надходить від радарів. Чесно кажучи, я не думаю, що я повністю розумію основну ідею. Чи може хтось вказати мені …


6
Чому р-значення розподіляються рівномірно під нульовою гіпотезою?
Нещодавно я знайшов у праці Кламмера та ін. твердження, що р-значення повинні розподілятися рівномірно. Я вірю авторам, але не можу зрозуміти, чому це так. Кламер, А.А., Парк, CY та Стаффорд Ноубл, США (2009) Статистична калібрування функції SEQUEST XCorr . Журнал Proteome Research . 8 (4): 2106–2113.
115 p-value  uniform 

16
Якщо 900 з 1000 людей кажуть, що машина синя, яка ймовірність, що вона синя?
Це спочатку виникло у зв’язку з деякою роботою, яку ми робимо для моделі класифікації природного тексту, але я спростив його ... Можливо, занадто багато. У вас синій автомобіль (за якоюсь об'єктивною науковою мірою - синій). Ви показуєте це 1000 людям. 900 кажуть, що це синій колір. 100 ні. Ви надаєте …
114 probability 

3
Як у регресії обчислюються стандартні похибки коефіцієнтів?
Для мого власного розуміння, мені цікаво реплікувати обчислення стандартних похибок оцінених коефіцієнтів, як, наприклад, з вихідною lm()функцією в R, але не змогли її зафіксувати. Для чого використовується формула / реалізація?

2
Отримання умовних розподілів багатоваріантного нормального розподілу
У нас є багатоваріантний нормальний вектор Y∼N(μ,Σ)Y∼N(μ,Σ){\boldsymbol Y} \sim \mathcal{N}(\boldsymbol\mu, \Sigma) . Розглянемо розділення μμ\boldsymbol\mu та YY{\boldsymbol Y} на μ=[μ1μ2]μ=[μ1μ2]\boldsymbol\mu = \begin{bmatrix} \boldsymbol\mu_1 \\ \boldsymbol\mu_2 \end{bmatrix} Y=[y1y2]Y=[y1y2]{\boldsymbol Y}=\begin{bmatrix}{\boldsymbol y}_1 \\ {\boldsymbol y}_2 \end{bmatrix} з аналогічним розділом ΣΣ\Sigma на [Σ11Σ21Σ12Σ22][Σ11Σ12Σ21Σ22] \begin{bmatrix} \Sigma_{11} & \Sigma_{12}\\ \Sigma_{21} & \Sigma_{22} \end{bmatrix} Потім, (y1|y2=a)(y1|y2=a)({\boldsymbol y}_1|{\boldsymbol …

13
Що поганого в коміксі XKCD "Честота проти Байєсів"?
Цей комікс xkcd ("Частоліньки проти Байєсів") висміює частоцистського статистику, який отримує очевидно неправильний результат. Однак мені здається, що його міркування насправді правильні в тому сенсі, що вони відповідають стандартній методології часто. Отже, моє запитання: "чи правильно він застосовує методологію частолістів?" Якщо ні: що було б правильним частота виводу в цьому …

10
Яка різниця між нейронною мережею і глибокою нейронною мережею, і чому глибокі працюють краще?
Я не бачив запитання, викладеного саме в цих термінах, і саме тому я ставлю нове запитання. Мені цікаво знати, це не визначення нейронної мережі, а розуміння фактичної різниці з глибокою нейронною мережею. Для додаткового контексту: я знаю, що таке нейромережа і як працює задні розмноження. Я знаю, що DNN повинен …

4
Кореляція Пірсона або Спірмена з ненормальними даними
Це питання я досить часто зустрічаю в своїй консультаційній роботі зі статистики, і думав, що опублікую його тут. У мене є відповідь, яка розміщена нижче, але мені було цікаво почути, що мають сказати інші. Питання: Якщо у вас є дві змінні, які зазвичай не розподіляються, чи слід використовувати rho Spearman …

1
Як повернути PCA та реконструювати оригінальні змінні з декількох основних компонентів?
Аналіз основних компонентів (PCA) може бути використаний для зменшення розмірності. Після такого зменшення розмірності, як можна приблизно реконструювати вихідні змінні / ознаки з невеликої кількості основних компонентів? Як варіант, як можна видалити або вилучити з даних кілька основних компонентів? Іншими словами, як повернути PCA? Враховуючи, що PCA тісно пов'язаний з …


Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.