Статистика та великі дані

Питання та відповіді для людей, зацікавлених у статистиці, машинному навчанні, аналізі даних, інтелектуальному аналізу даних та візуалізації даних

4
Як ви інтерпретуєте RMSLE (кореневу логарифмічну помилку середнього рівня)?
Я проводив змагання з машинного навчання, де вони використовують RMSLE (кореневу середню квадратичну логарифмічну помилку), щоб оцінити ефективність, прогнозуючи ціну продажу категорії обладнання. Проблема в тому, що я не впевнений, як інтерпретувати успіх свого остаточного результату. Наприклад , якщо я досяг RMSLE з я міг підняти його експонентну потужність і …

2
Як статистично порівняти ефективність класифікаторів машинного навчання?
На основі оціночної точності класифікації я хочу перевірити, чи є один класифікатор статистично кращим на базовому наборі, ніж інший класифікатор. Для кожного класифікатора я вибираю навчальний та тестовий зразок випадковим чином із базового набору, треную модель та тестую модель. Я роблю це десять разів для кожного класифікатора. Тому я маю …

3
Перехресне підтвердження K-кратно проти Монте-Карло
Я намагаюся вивчити різні методи перехресної перевірки, насамперед з наміром застосувати до контрольованих методів багатофакторного аналізу. Два, з якими я стикався, - це методи перехресної перевірки в K-кратному і Монте-Карло. Я читав, що K-кратність - це зміна Монте-Карло, але я не впевнений, що повністю розумію, що складає визначення Монте-Карло. Чи …

2
Вибір пропускної здатності для оцінювачів щільності ядра
Для одновимірних оцінювачів щільності ядра (KDE) я використовую правило Сільвермана для обчислення :hhh 0.9min(sd,IQR/1.34)×n−0.20.9min(sd,IQR/1.34)×n−0.2\begin{equation} 0.9 \min(sd, IQR/1.34)\times n^{-0.2} \end{equation} Назвіть стандартні правила для багатоваріантного KDE (якщо припустити нормальне ядро).

3
R: Випадковий ліс, який кидає NaN / Inf у помилці "виклику іноземної функції", незважаючи на відсутність набору даних NaN [закритий]
Зачинено. Це питання поза темою . Наразі відповіді не приймаються. Хочете вдосконалити це питання? Оновіть питання, щоб воно було тематичним для перехресної перевірки. Закрито 2 роки тому . Я використовую caret, щоб запустити перехрещений випадковий ліс над набором даних. Змінна Y - фактор. У моєму наборі даних немає NaN, Inf …

4
Чому Ендрю Нг вважає за краще використовувати SVD, а не EIG коваріаційної матриці для PCA?
Я вивчаю PCA з курсу Coursera Ендрю Нґ та інших матеріалів. У першому завданні курсу Stanford NLP cs224n , а в лекційному відео від Ендрю Нг вони роблять сингулярне розкладання значення замість власного вектора розкладання коваріаційної матриці, і Ng навіть говорить, що SVD чисельно стабільніше, ніж ейгендекомпозиція. З мого розуміння, …

4
Як походить функція витрат з логістичної регресії
Я роблю курс машинного навчання Стенфорда на Coursera. У главі з логістичної регресії функція витрат така: Потім, це похідне тут: Я намагався отримати похідну від функції витрат, але отримав щось зовсім інше. Як отримується похідна? Які є посередницькими кроками?

1
що означають числа у звіті про класифікацію sklearn?
Я маю нижче приклад, який я взяв із документації sklearn 'sklearn.metrics.classification_report. Що я не розумію, це чому для кожного класу існують значення f1-балів, точності та відкликання, де я вважаю, що клас є міткою передбачувача? Я думав, що оцінка f1 говорить вам про загальну точність моделі. Також, що нам говорить стовпчик …

3
Перехресне підтвердження, включаючи навчання, валідацію та тестування. Для чого нам потрібні три підмножини?
У мене є питання щодо перехресної перевірки. Я в середині курсу машинного навчання на Cursera. Одна з тем про перехресне підтвердження. Мені було важко слідувати. Я точно знаю, навіщо нам потрібне резюме, тому що ми хочемо, щоб наші моделі добре працювали над майбутніми (невідомими) даними, а резюме не дозволяє переробляти. …

2
Помилка “система обчислювально є єдиною” під час запуску glm
Я використовую пакет robustbase, щоб виконати оцінку glm . Однак коли я це роблю, я отримую таку помилку: Error in solve.default(crossprod(X, DiagB * X)/nobs, EEq) : system is computationally singular: reciprocal condition number = 1.66807e-16 Що це означає / вказує? І як я можу це налагодити? PS. Якщо вам потрібно …

3
Чому AUC вище для класифікатора, який є менш точним, ніж для більш точного?
У мене є два класифікатори A: наївна байєсівська мережа B: дерево (окремо пов'язане) байєсівської мережі Щодо точності та інших заходів, A працює порівняно гірше, ніж B. Однак, коли я використовую пакети R ROCR та AUC для аналізу ROC, виявляється, що AUC для A вище, ніж AUC для B. Чому це …

4
Як можна виміряти нерівномірність розподілу?
Я намагаюся придумати метрику для вимірювання нерівномірності розподілу для експерименту, який я виконую. У мене є випадкова змінна, яка повинна бути рівномірно розподілена в більшості випадків, і я хотів би мати можливість визначити (і, можливо, виміряти ступінь) прикладів наборів даних, де змінна не рівномірно розподілена в межах деякої межі. Приклад …

2
Чи опублікувала статистику неправильна відповідь?
Статистика.com опублікував проблему тижня: рівень шахрайства з житловим страхуванням становить 10% (один із десяти претензій є шахрайським). Консультант запропонував систему машинного навчання для розгляду претензій та класифікації їх як шахрайства чи без шахрайства. Система на 90% ефективніше виявляє шахрайські претензії, але лише 80% ефективна в правильній класифікації заяв про не …

2
Яка статистична модель за алгоритмом SVM?
Я дізнався, що при роботі з даними, використовуючи підхід, заснований на моделі, першим кроком є ​​моделювання процедури даних як статистичної моделі. Потім наступним кроком є ​​розробка ефективного / швидкого алгоритму виведення / навчання на основі цієї статистичної моделі. Тож я хочу запитати, яка статистична модель стоїть за алгоритмом векторної машини …

3
Чому суміш двох нормально розподілених змінних є лише бімодальною, якщо їхні значення відрізняються щонайменше вдвічі від загального стандартного відхилення?
Під сумішшю двох нормальних розподілів: https://en.wikipedia.org/wiki/Multimodal_distribution#Mixture_of_two_normal_distributions "Суміш двох нормальних розподілів має п'ять параметрів для оцінювання: два засоби, дві дисперсії та параметр змішування. Суміш двох нормальних розподілів з рівними стандартними відхиленнями є бімодальною, лише якщо їхні значення відрізняються щонайменше вдвічі від загального стандартного відхилення . " Я шукаю виведення або інтуїтивне …
28 bimodal 

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.