Статистика та великі дані

Питання та відповіді для людей, зацікавлених у статистиці, машинному навчанні, аналізі даних, інтелектуальному аналізу даних та візуалізації даних

1
Чи регресія з регуляризацією L1 така сама, як у Лассо, а з регуляризацією L2 така ж, як і регресія хребта? А як написати "Лассо"?
Я програмний інженер, який навчається машинному навчанню, зокрема, через курси машинного навчання Ендрю Нґ . Під час вивчення лінійної регресії з регуляризацією я виявив терміни, які заплутані: Регресія з L1 регуляризацією або L2 регуляризацією ЛАССО Регресія хребта Тож мої запитання: Чи регресія з регуляризацією L1 точно така ж, як і …


1
Відносна змінна важливість для підвищення рівня
Я шукаю пояснення того, як обчислюється відносна змінна важливість у градієнтних підсилених деревах, що не є надто загальним / спрощеним, як: Заходи ґрунтуються на кількості вибраних змінних для розщеплення, зважених вдосконаленням у формі квадрата в результаті кожного розколу та усередненому для всіх дерев . [ Еліт та ін. 2008 р., …


3
Інтуїтивна різниця між прихованими моделями Маркова та умовними випадковими полями
Я розумію, що HMM (моделі прихованих марків) є генеративними моделями, а CRF - дискримінаційними моделями. Я також розумію, як проектуються та використовуються CRF (умовні випадкові поля). Чого я не розумію, чим вони відрізняються від НММ? Я читав, що у випадку HMM ми можемо моделювати наступний стан лише на попередньому вузлі, …

2
Розуміння форми та обчислення смуг довіри в лінійній регресії
Я намагаюся зрозуміти походження вигнутої форми довірчих смуг, пов'язаних з лінійною регресією OLS, і як це стосується довірчих інтервалів параметрів регресії (нахилу та перехоплення), наприклад (за допомогою R): require(visreg) fit <- lm(Ozone ~ Solar.R,data=airquality) visreg(fit) Виявляється, смуга пов'язана з межами ліній, обчислених з перехопленням 2,5% та нахилом 97,5%, а також …

3
Яким чином випадкові ліси не чутливі до людей, що пережили?
Я читав у кількох джерелах, включаючи це , про те, що випадкові ліси не чутливі до людей, що переживають люди (наприклад, Логістична регресія та інші методи боротьби з МС). Однак дві інтуїції говорять мені про інше: Щоразу, коли будується дерево рішень, усі точки повинні бути класифіковані. Це означає, що навіть …

2
Визначення розміру вибірки, необхідного для завантажувального методу / Пропонований метод
Я знаю, що це досить гаряча тема, де ніхто насправді не може дати просту відповідь. Тим не менш, мені цікаво, чи не може бути корисним наступний підхід. Метод завантаження корисний лише в тому випадку, якщо ваш зразок дотримується більш-менш (читайте точно) того ж розподілу, що і вихідний сукупність. Для того, …

5
Кластеризація набору даних як дискретних, так і безперервних змінних
У мене є набір даних X з 10 вимірами, 4 з яких - дискретні значення. Насправді ці 4 дискретні змінні є порядковими, тобто більш високе значення означає більш високу / кращу семантичну. 2 з цих дискретних змінних є категоричними в тому сенсі, що для кожної з цих змінних відстань, наприклад, …

5
Збільшення інформації, взаємна інформація та пов'язані з цим заходи
Ендрю Морі визначає приріст інформації як: IG(Y|X)=H(Y)−H(Y|X)IG(Y|X)=H(Y)−H(Y|X)IG(Y|X) = H(Y) - H(Y|X) де - умовна ентропія . Однак Вікіпедія називає вищезазначену кількість взаємною інформацією .H(Y|X)H(Y|X)H(Y|X) Вікіпедія, з іншого боку, визначає приріст інформації як розбіжність Куллбека – Лейблера (відома також як розбіжність інформації або відносна ентропія) між двома випадковими змінними: DKL(P||Q)=H(P,Q)−H(P)DKL(P||Q)=H(P,Q)−H(P)D_{KL}(P||Q) = …

7
Як ви передаєте красу теореми про центральну межу нестатисту?
Мій батько - ентузіаст математики, але статистикою не дуже цікавий. Було б акуратно спробувати проілюструвати деякі чудові фрагменти статистики, і CLT є головним кандидатом. Як би ви передали математичну красу та вплив центральної граничної теореми нестатисту?

7
Чи є прийняте визначення медіани вибірки на площині чи вищих упорядкованих пробілів?
Якщо так, то що? Якщо ні, то чому б і ні? Для вибірки на лінії медіана мінімізує повне абсолютне відхилення. Здавалося б, природно розширити визначення на R2 тощо, але я його ніколи не бачив. Але потім я давно був у лівому полі.

2
Теорія за частковою регресією найменших квадратів
Чи може хтось порекомендувати гарне виклад теорії за частковою регресією найменших квадратів (доступна в Інтернеті) для тих, хто розуміє SVD та PCA? Я переглянув багато джерел в Інтернеті і не знайшов нічого, що мав би правильне поєднання суворості та доступності. Я розглянув "Елементи статистичного навчання" , що було запропоновано в …

1
Що таке задні прогнозні перевірки та що робить їх корисними?
Я розумію, що таке задній прогнозний розподіл , і я читав про задні передбачувальні перевірки , хоча мені ще не ясно, що він робить. Що саме є задній прогностичний чек? Чому деякі автори кажуть, що проведення задніх прогнозних перевірок "використовує дані двічі" і не слід ними зловживати? (або навіть, що …

4
Чому танг майже завжди кращий за сигмоподібну як функцію активації?
У курсі " Нейронні мережі та глибоке навчання" Ендрю Нґ на "Coursera" він говорить, що використання майже завжди краще використовувати .t a n hтангодtanhs i gмо я дсiгмоiгsigmoid Причина, яку він наводить, полягає в тому, що результати, що використовують центр навколо 0, а не 0,5, і це "трохи спрощує навчання …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.