Статистика та великі дані

4

Оцінка приблизного розподілу даних на основі гістограми

Припустимо, я хочу перевірити, чи мої дані експоненціальні на основі гістограми (тобто перекошені праворуч). Залежно від того, як я групую або обробляю дані, я можу отримати різко різні гістограми. Один набір гістограм зробить здається, що дані експоненціальні. З іншого набору буде здаватися, що дані не є експоненціальними. Як зробити чітко …

111 distributions data-visualization histogram binning

6

Чи слід видаляти сильно корельовані змінні, перш ніж робити PCA?

Я читаю документ, де автор відкидає кілька змінних через високу кореляцію з іншими змінними, перш ніж робити PCA. Загальна кількість змінних становить близько 20. Це дає якісь переваги? Для мене це виглядає як накладні витрати, оскільки PCA повинен це впоратися автоматично.

111 correlation pca

2

Градієнт, що підсилює дерево проти випадкового лісу

Підвищення градієнтного дерева, запропоноване Фрідманом, використовує дерева рішень як базових учнів. Мені цікаво, чи варто робити базове дерево рішень максимально складним (повністю вирощеним) чи простішим? Чи є пояснення щодо вибору? Випадковий ліс - ще один ансамблевий метод, що використовує дерева рішень як базових учнів. Виходячи з мого розуміння, ми зазвичай …

110 machine-learning random-forest cart boosting ensemble

8

Виявлення заданого обличчя в базі даних зображень обличчя

Я працюю над невеликим проектом, в якому беруть участь особи користувачів твіттера через фотографії їхніх профілів. Проблема, з якою я стикався, полягає в тому, що після того, як я фільтрую всі, крім зображень, які є чіткими портретними фотографіями, невеликий, але значний відсоток користувачів twitter використовує зображення Джастіна Бібера як зображення …

110 machine-learning clustering image-processing

3

Що робити, якщо залишки звичайно розподіляються, але у ні?

У мене дивне запитання. Припустимо, що у вас є невеликий зразок, де залежна змінна, яку ви збираєтеся аналізувати за допомогою простої лінійної моделі, сильно зліва нахилена. Таким чином, ви припускаєте, що нормально не розподіляється, оскільки це призведе до нормально розподіленого y . Але коли ви обчислюєте графік QQ-Normal, є докази …

110 regression residuals error normality-assumption

6

Як би ви пояснили різницю між кореляцією та коваріацією?

Після цього питання, як би ви пояснили коваріацію тому, хто розуміє лише середнє значення? , яке стосується питання пояснення коваріації непростої людині, викликало подібне питання в моїй думці. Як би пояснити неофіту статистики різницю між коваріацією та кореляцією ? Схоже, що обидва посилаються на зміну однієї змінної, пов'язаної назад з …

109 correlation covariance

10

Чому розподіл Коші не означає?

З функції щільності розподілу ми могли б визначити середнє значення (= 0) для розподілу Коші, як показано на графіку нижче. Але чому ми кажемо, що розподіл Коші не має ніякого значення?

109 distributions mathematical-statistics mean pdf cauchy

15

Результати виборів у США 2016: Що пішло не так з моделями прогнозування?

Спочатку це був Brexit , зараз вибори в США. Чимало модельних прогнозів було вимкнено з великою маржею, і чи є тут уроки? Вже вчора о 16:00 PST ринки ставок все ще надавали перевагу Хілларі з 4 по 1. Я вважаю, що ринки ставок, з реальними грошима на лінії, повинні виступати …

108 predictive-models ensemble confounding

5

Як працює підтримка векторної машини (SVM)?

Як працює векторна машина підтримки (SVM) і чим вона відрізняється від інших лінійних класифікаторів, таких як лінійний рецептор , лінійний дискримінантний аналіз або логістична регресія ? * (* Думаю з точки зору основної мотивації алгоритму, стратегій оптимізації, можливостей узагальнення та складності виконання )

108 machine-learning classification svm statistical-learning

4

Яке правило .632+ при завантаженні?

Тут @gung посилається на правило .632+. Швидкий пошук в Google не дає простий для розуміння відповіді на те, що означає це правило та з якою метою воно використовується. Хтось, будь ласка, з’ясує правило .632+?

107 bootstrap

6

Чи існує інтуїтивна інтерпретація для матриці даних ?

Для даної матриці даних (зі змінними в стовпцях та точками даних у рядках), схоже, відіграє важливу роль у статистиці. Наприклад, це важлива частина аналітичного рішення звичайних найменших квадратів. Або, для PCA, його власні вектори є основними компонентами даних.А Т АAAAATAATAA^TA Я розумію, як обчислити , але мені було цікаво, чи …

107 matrix covariance-matrix correlation-matrix

5

Які навички потрібні для проведення масштабних статистичних аналізів?

Багато статистичних робочих місць вимагають досвіду з великими масштабами даних. Назвіть види статистичних та обчислювальних навичок, які знадобляться для роботи з великими наборами даних. Наприклад, як щодо побудови регресійних моделей з набором даних з 10 мільйонів зразків?

107 regression machine-learning multivariate-analysis large-data

21

Що в реальному світі є прикладом "переозброєння"?

Я начебто розумію, що означає "переозброєння", але мені потрібна допомога щодо того, як придумати приклад із реального світу, який стосується перевиконання.

107 overfitting

7

Чому точність не є найкращим показником для оцінки класифікаційних моделей?

Це загальне запитання, яке тут задавали побічно багато разів, але на нього немає однозначної відповіді. Було б чудово отримати детальну відповідь на це для довідки. Точність , частка правильних класифікацій серед усіх класифікацій є дуже простою та дуже "інтуїтивно зрозумілою" мірою, проте вона може бути поганою мірою для незбалансованих даних …

107 machine-learning classification accuracy model-evaluation scoring-rules

6

Що означає згортання 1x1 у нейронній мережі?

Зараз я займаюся навчальним посібником з глибокого навчання Udacity. У уроці 3 вони говорять про згортку 1x1. Цей звіт 1х1 використовується в Inception модулі Google. У мене виникають проблеми з розумінням того, що таке згортка 1x1. Я також бачив цю посаду Янна Лекуна. Може хтось люб’язно мені це пояснить?

106 neural-networks deep-learning convolution conv-neural-network