Статистика та великі дані

Питання та відповіді для людей, зацікавлених у статистиці, машинному навчанні, аналізі даних, інтелектуальному аналізу даних та візуалізації даних


6
Принциповий спосіб згортання категоріальних змінних з багатьма рівнями?
Які методи доступні для згортання (чи об'єднання) багатьох категорій до кількох, з метою використання їх як вхідних даних (прогнозів) у статистичній моделі? Розглянемо таку змінну, як студент коледжу (дисципліна, яку обирає студент). Це не упорядковане і категоричне, але потенційно воно може мати десятки різних рівнів. Скажімо, я хочу використовувати мажор …


11
Мозок тизера: Як генерувати 7 цілих чисел з однаковою ймовірністю за допомогою упередженої монети, яка має pr (голову) = p?
Це питання, яке я знайшов у Glassdoor : Як можна генерувати 7 цілих чисел з однаковою ймовірністю за допомогою монети, у якій ?Pr(Head)=p∈(0,1)Pr(Head)=p∈(0,1)\mathbb{Pr}(\text{Head}) = p\in(0,1) В основному у вас є монета, яка може бути, а може і не бути справедливою, і це єдиний у вас процес генерування випадкових чисел, тому …

3
Середня абсолютна помилка АБО середня коренева помилка у квадраті?
Чому слід використовувати кореневу середньоквадратичну помилку (RMSE) замість середньої абсолютної помилки (MAE) ?? Привіт Я досліджував помилку, що генерується в обчисленні - спочатку я обчислював помилку як помилку «Кореневе середнє значення». Придивившись трохи ближче, я бачу, що ефекти квадратичної помилки надають більшої ваги більшим помилкам, ніж меншим, перекосуючи оцінку помилок …
58 least-squares  mean  rms  mae 

2
Як я можу змінити назву легенди в ggplot2? [зачинено]
У мене є сюжет, який я створюю в ggplot2, щоб узагальнити дані, що складаються з 2-х 4 х 3 даних з ядрами. Мені вдалося зробити панелі для дворівневої змінної за допомогою facet_grid(. ~ Age)та встановити осі x та y за допомогою aes(x=4leveledVariable, y=DV). Я раніше aes(group=3leveledvariable, lty=3leveledvariable)створював сюжет. Це дає …

1
Розуміння кривої ROC
У мене виникають проблеми з розумінням кривої ROC. Чи є якась перевага / покращення в області під кривою ROC, якщо я будую різні моделі з кожного унікального підмножини навчального набору і використовую його для створення ймовірності? Наприклад, якщо має значення { , , , , б , б , б …
57 r  roc 

7
Як працює фокус із перемаралізацією для VAE і чому він важливий?
Як працює трюк репараметеризації для варіативних автокодер (VAE)? Чи є інтуїтивне і просте пояснення без спрощення основної математики? І навіщо нам потрібен «трюк»?

1
Чому для підрахунку даних рекомендується перетворення квадратного кореня?
Часто рекомендується взяти квадратний корінь, коли у вас є дані про підрахунок. (Для деяких прикладів з резюме див. Відповідь @ HarveyMotulsky тут або відповідь @ wuber тут .) З іншого боку, при встановленні узагальненої лінійної моделі зі змінною відповіді, розподіленою як Пуассон, журнал є канонічним посиланням . Це щось на …

13
Чи збільшує 10 головок поспіль шанс наступного кидання хвоста?
Я припускаю, що вірно наступне: припускаючи справедливу монету, отримання 10 головок поспіль, під час кидання монети не збільшує шансів, що наступна монета кине хвіст , незалежно від того, яка кількість вірогідності та / або статистичного жаргону кидається навколо (вибачте каламбури). Якщо припустити, що це так, моє запитання таке: як чорт …

7
Приклади, де метод моментів може перемогти максимальну ймовірність у невеликих зразках?
Максимальні оцінки вірогідності (MLE) є асимптотично ефективними; ми бачимо практичний підсумок у тому, що вони часто роблять краще, ніж метод моментних оцінок (MoM) (коли вони різняться), навіть при невеликих розмірах вибірки Тут "краще, ніж" означає в сенсі, як правило, має меншу дисперсію, коли обидві є неупередженими, і, як правило, меншою …


4
Чи має сенс додати в модель квадратичний термін, але не лінійний член?
У мене є (змішана) модель, в якій один з моїх прогнозів апріорі повинен апріорі бути пов'язаний лише квадратично з предиктором (через експериментальну маніпуляцію). Отже, я хотів би додати в модель лише квадратичний термін. Дві речі заважають мені це робити: Я думаю, що я читав, що коли-небудь слід включати поліном нижчого …

17
Кулінарна книга машинного навчання / довідкова карта / шпаргалка?
Мені здається, що такі ресурси, як « Вірогідність та статистика», та «Довідкова картка R» для обміну даними, є надзвичайно корисними. Вони, очевидно, добре слугують довідками, але також допомагають мені організувати свої думки на тему та отримати землю. З: Чи існує щось подібне до цих ресурсів для методів машинного навчання? Я …

11
Ресурси для вивчення ланцюга Маркова та прихованих моделей Маркова
Я шукаю ресурси (навчальні посібники, підручники, веб-трансляція тощо), щоб дізнатися про Марківську ланцюжок та НММ. Моя професія - це біолог, і я зараз беру участь у проекті, пов'язаному з біоінформатикою. Крім того, які необхідні математичні основи мені потрібні, щоб мати достатнє розуміння моделей Маркова та НММ? Я роздивлявся, використовуючи Google, …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.