Статистика та великі дані

Питання та відповіді для людей, зацікавлених у статистиці, машинному навчанні, аналізі даних, інтелектуальному аналізу даних та візуалізації даних

4
Оцінка приблизного розподілу даних на основі гістограми
Припустимо, я хочу перевірити, чи мої дані експоненціальні на основі гістограми (тобто перекошені праворуч). Залежно від того, як я групую або обробляю дані, я можу отримати різко різні гістограми. Один набір гістограм зробить здається, що дані експоненціальні. З іншого набору буде здаватися, що дані не є експоненціальними. Як зробити чітко …

6
Чи слід видаляти сильно корельовані змінні, перш ніж робити PCA?
Я читаю документ, де автор відкидає кілька змінних через високу кореляцію з іншими змінними, перш ніж робити PCA. Загальна кількість змінних становить близько 20. Це дає якісь переваги? Для мене це виглядає як накладні витрати, оскільки PCA повинен це впоратися автоматично.
111 correlation  pca 

2
Градієнт, що підсилює дерево проти випадкового лісу
Підвищення градієнтного дерева, запропоноване Фрідманом, використовує дерева рішень як базових учнів. Мені цікаво, чи варто робити базове дерево рішень максимально складним (повністю вирощеним) чи простішим? Чи є пояснення щодо вибору? Випадковий ліс - ще один ансамблевий метод, що використовує дерева рішень як базових учнів. Виходячи з мого розуміння, ми зазвичай …

8
Виявлення заданого обличчя в базі даних зображень обличчя
Я працюю над невеликим проектом, в якому беруть участь особи користувачів твіттера через фотографії їхніх профілів. Проблема, з якою я стикався, полягає в тому, що після того, як я фільтрую всі, крім зображень, які є чіткими портретними фотографіями, невеликий, але значний відсоток користувачів twitter використовує зображення Джастіна Бібера як зображення …

3
Що робити, якщо залишки звичайно розподіляються, але у ні?
У мене дивне запитання. Припустимо, що у вас є невеликий зразок, де залежна змінна, яку ви збираєтеся аналізувати за допомогою простої лінійної моделі, сильно зліва нахилена. Таким чином, ви припускаєте, що нормально не розподіляється, оскільки це призведе до нормально розподіленого y . Але коли ви обчислюєте графік QQ-Normal, є докази …

6
Як би ви пояснили різницю між кореляцією та коваріацією?
Після цього питання, як би ви пояснили коваріацію тому, хто розуміє лише середнє значення? , яке стосується питання пояснення коваріації непростої людині, викликало подібне питання в моїй думці. Як би пояснити неофіту статистики різницю між коваріацією та кореляцією ? Схоже, що обидва посилаються на зміну однієї змінної, пов'язаної назад з …


15
Результати виборів у США 2016: Що пішло не так з моделями прогнозування?
Спочатку це був Brexit , зараз вибори в США. Чимало модельних прогнозів було вимкнено з великою маржею, і чи є тут уроки? Вже вчора о 16:00 PST ринки ставок все ще надавали перевагу Хілларі з 4 по 1. Я вважаю, що ринки ставок, з реальними грошима на лінії, повинні виступати …

5
Як працює підтримка векторної машини (SVM)?
Як працює векторна машина підтримки (SVM) і чим вона відрізняється від інших лінійних класифікаторів, таких як лінійний рецептор , лінійний дискримінантний аналіз або логістична регресія ? * (* Думаю з точки зору основної мотивації алгоритму, стратегій оптимізації, можливостей узагальнення та складності виконання )

4
Яке правило .632+ при завантаженні?
Тут @gung посилається на правило .632+. Швидкий пошук в Google не дає простий для розуміння відповіді на те, що означає це правило та з якою метою воно використовується. Хтось, будь ласка, з’ясує правило .632+?
107 bootstrap 

6
Чи існує інтуїтивна інтерпретація для матриці даних ?
Для даної матриці даних (зі змінними в стовпцях та точками даних у рядках), схоже, відіграє важливу роль у статистиці. Наприклад, це важлива частина аналітичного рішення звичайних найменших квадратів. Або, для PCA, його власні вектори є основними компонентами даних.А Т АAAAATAATAA^TA Я розумію, як обчислити , але мені було цікаво, чи …

5
Які навички потрібні для проведення масштабних статистичних аналізів?
Багато статистичних робочих місць вимагають досвіду з великими масштабами даних. Назвіть види статистичних та обчислювальних навичок, які знадобляться для роботи з великими наборами даних. Наприклад, як щодо побудови регресійних моделей з набором даних з 10 мільйонів зразків?


7
Чому точність не є найкращим показником для оцінки класифікаційних моделей?
Це загальне запитання, яке тут задавали побічно багато разів, але на нього немає однозначної відповіді. Було б чудово отримати детальну відповідь на це для довідки. Точність , частка правильних класифікацій серед усіх класифікацій є дуже простою та дуже "інтуїтивно зрозумілою" мірою, проте вона може бути поганою мірою для незбалансованих даних …

6
Що означає згортання 1x1 у нейронній мережі?
Зараз я займаюся навчальним посібником з глибокого навчання Udacity. У уроці 3 вони говорять про згортку 1x1. Цей звіт 1х1 використовується в Inception модулі Google. У мене виникають проблеми з розумінням того, що таке згортка 1x1. Я також бачив цю посаду Янна Лекуна. Може хтось люб’язно мені це пояснить?

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.