Статистика та великі дані

Питання та відповіді для людей, зацікавлених у статистиці, машинному навчанні, аналізі даних, інтелектуальному аналізу даних та візуалізації даних


8
Коли слід включати змінну в регресію, незважаючи на те, що вона не є статистично значимою?
Я студент економіки з певним досвідом роботи з економетрикою та Р. Я хотів би знати, чи є колись ситуація, коли ми повинні включати змінну в регресію, незважаючи на те, що вона не є статистично значимою?

3
Різниця кратних оцінок перехресної перевірки як : яка роль "стабільності"?
TL, DR: Схоже, що, всупереч часто повторюваним порадам, перехресне підтвердження виходу-один-один (LOO-CV) - тобтократне CV з(кількість складок), що дорівнює(число навчальних спостережень) - дає оцінку похибки узагальнення, яка є найменшою змінною для будь-якого, не найбільш змінною, припускаючи певнуумову стабільності або моделі / алгоритму, набору даних, або обох (я не впевнений, який …

5
Чи змінить факт того, що мій син Італії буде відвідувати початкову школу, очікувана кількість італійських дітей, які будуть присутні в його класі?
Це питання, що випливає з реальної ситуації, на яке я щиро спантеличив її відповідь. Мій син повинен почати початкову школу в Лондоні. Оскільки ми італійці, мені було цікаво дізнатись, скільки італійських дітей вже відвідують школу. Я запитав це до офіцера прийому під час подання заявки, і вона сказала, що в …

1
Чому glmer не досягає максимальної ймовірності (як це підтверджено шляхом подальшої загальної оптимізації)?
Чисельне отримання MLE з GLMM є складним, і, на практиці, я знаю, ми не повинні використовувати оптимізацію грубої сили (наприклад, використовуючи optimпростий спосіб). Але для власного навчального призначення я хочу спробувати це, щоб переконатися, що я правильно розумію модель (див. Код нижче). Я виявив, що завжди отримую суперечливі результати glmer(). …

2
Інтервал прогнозування для lmer () моделі змішаних ефектів в R
Я хочу отримати інтервал прогнозування навколо прогнозування з lmer () моделі. Я знайшов певну дискусію з цього приводу: http://rstudio-pubs-static.s3.amazonaws.com/24365_2803ab8299934e888a60e7b16113f619.html http://glmm.wikidot.com/faq але вони, схоже, не враховують невизначеність випадкових ефектів. Ось конкретний приклад. Я скачу золоту рибку. У мене є дані про останні 100 гонок. Я хочу передбачити 101-й, беручи до уваги …

6
Перевірте, чи два біноміальних розподіли статистично відрізняються один від одного
У мене є три групи даних, кожна з біноміальним розподілом (тобто кожна група має елементи, що мають успіх чи невдачу). У мене немає передбачуваної ймовірності успіху, але натомість я можу розраховувати лише на рівень успішності кожного як наближення до справжнього показника успіху. Я лише знайшов це питання , яке є …

3
Порівняння SVM та логістичної регресії
Чи може хтось, будь ласка, дати мені трохи зрозуміти, коли вибрати SVM чи LR? Я хочу зрозуміти інтуїцію, в чому полягає різниця між критеріями оптимізації вивчення гіперплану двох, де відповідні цілі такі: SVM: Намагайтеся максимально збільшувати запас між найближчими векторами підтримки LR: Максимізуйте ймовірність заднього класу Розглянемо лінійний простір функцій …

6
Удосконалити класифікацію за допомогою багатьох категоричних змінних
Я працюю над набором даних з 200 000+ зразків і приблизно 50 особливостей на вибірку: 10 безперервних змінних, а інші ~ 40 - категоричні змінні (країни, мови, наукові галузі тощо). Для цих категоричних змінних у вас є, наприклад, 150 різних країн, 50 мов, 50 наукових галузей тощо ... Поки мій …

8
Допоможіть мені порахувати, скільки людей прийде на моє весілля! Чи можу я віднести відсоток до кожної людини та додати їх?
Я планую своє весілля. Я хочу підрахувати, скільки людей прийдуть на моє весілля. Я створив список людей і шанс, що вони приймуть участь у відсотках. Наприклад Dad 100% Mom 100% Bob 50% Marc 10% Jacob 25% Joseph 30% У мене є список близько 230 осіб із відсотками. Як я можу …

4
Чи є сильним фоном у математиці загальний реквізит для ML?
Я починаю хочу просунути свій власний набір навичок, і мене завжди захоплювало машинне навчання. Однак шість років тому, замість того, щоб цим займатися, я вирішив взяти зовсім непов’язаний ступінь з інформатикою. Я розробляю програмне забезпечення та додатки вже близько 8-10 років, тому в мене є хороша ручка, але я просто …

2
Як знайти гарну форму для напівсинусоїдальної моделі в R?
Я хочу припустити, що температура поверхні Балтійського моря однакова з року в рік, а потім описати це за допомогою функціональної / лінійної моделі. У мене була ідея просто ввести рік у вигляді десяткового числа (або число_місяць / 12) і дізнатися, якою повинна бути температура в цей час. Указавши функцію lm …
37 r  regression  time-series  lm 

2
Як факторний аналіз пояснює коваріацію, тоді як PCA пояснює дисперсію?
Ось цитата з книги Бішопа "Розпізнавання образів та машинне навчання", розділ 12.2.4 "Факторний аналіз": У відповідності з виділеної частини, факторний аналіз фіксує ковариации між змінними в матриці WWW . Цікаво, ЯК ? Ось як я це розумію. Скажімо, xxx - спостережувана ppp -вимірна величина, WWW - матриця завантаження факторів, а …

5
Як перевірити нелінійну асоціацію?
Для сюжету 1 я можу перевірити асоціацію між x та y, зробивши просту кореляцію. Для сюжету 2, де зв'язок нелінійний, але чітке співвідношення між x та y є, як я можу перевірити асоціацію та позначити її природу?

3
SVM, Overfitting, прокляття розмірності
Мій набір даних невеликий (120 зразків), проте кількість функцій велика варіюється від (1000-200 000). Хоча я роблю підбір функцій, щоб вибрати підмножину функцій, це все одно може бути надмірним. Перше моє запитання - як SVM справляється із переозброєнням, якщо взагалі. По-друге, коли я детальніше вивчаю питання про перевиконання у випадку …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.