Запитання з тегом «predictive-models»

Прогностичні моделі - це статистичні моделі, основною метою яких є прогнозування інших спостережень системи оптимально, на відміну від моделей, метою яких є перевірка певної гіпотези або механічне пояснення явища. Таким чином, прогностичні моделі роблять менший акцент на інтерпретації та більше акцентують на продуктивності.

5
Чи важливий дослідницький аналіз даних при чисто передбачуваному моделюванні?
Під час побудови прогностичної моделі з використанням машинних методів навчання, який сенс робити дослідницький аналіз даних (EDA)? Чи добре переходити безпосередньо до генерації функцій та будувати свої моделі? Наскільки важлива описова статистика, яка використовується в EDA?

1
Пояснення того, що Нейт Сілвер сказав про лес
У запитанні, яке я нещодавно задав , мені відповіли, що екстраполяція з льосом було великим «ні-ні». Але в останній статті Нейт Сілвер на FiveThirtyEight.com він обговорював використання льосу для здійснення передвиборчих прогнозів. Він обговорював специфіку агресивних проти консервативних прогнозів з льосом, але мені цікаво обгрунтованість того, щоб робити майбутні прогнози …

3
Візуалізація калібрування передбачуваної ймовірності моделі
Припустимо, у мене є прогнозована модель, яка створює для кожного примірника ймовірність для кожного класу. Тепер я визнаю, що існує багато способів оцінити таку модель, якщо я хочу використовувати ці ймовірності для класифікації (точність, відкликання тощо). Я також усвідомлюю, що крива ROC та площа під нею можна використовувати для визначення …

3
Сайти для змагань з прогнозного моделювання
Я беру участь у змаганнях з прогнозування моделювання на Kaggle , TunedIt та CrowdAnalytix . Я вважаю, що ці сайти є хорошим способом "відпрацювати" статистику / машинне навчання. Чи є інші сайти, про які я повинен знати? Як ви ставитесь до змагань, де господар має намір отримати прибуток від подання …

2
Генеративні та дискримінаційні моделі (в баєсівському контексті)
Які відмінності між генеративною та дискримінаційною (дискримінантною) моделлю (в контексті байєсівського навчання та умовиводу)? і що це стосується прогнозування, теорії рішень або непідконтрольного навчання?

3
Як передбачити результат лише з позитивних випадків як навчання?
Для простоти, скажімо, я працюю на класичному прикладі спам / не-спам-листів. У мене є набір 20000 електронних листів. З них я знаю, що 2000 - це спам, але я не маю жодного прикладу не-спам-листів. Я хотів би передбачити, чи залишилися 18000 спамом чи ні. В ідеалі результат, який я шукаю, …

2
Методи збільшення даних для загальних наборів даних?
У багатьох програмах машинного навчання так звані методи збільшення даних дозволили створити кращі моделі. Наприклад, припустимо навчальний набір із зображень котів та собак. Обертанням, дзеркальним відображенням, регулюванням контрасту тощо можна створити додаткові зображення з оригінальних.100100100 Що стосується зображень, то доповнення даних є відносно простим. Однак припустимо (наприклад), що у кожного …

2
Функція «Цікавість» для питань StackExchange
Я намагаюся скласти пакет обміну даними для сайтів StackExchange, і зокрема, я застряг у спробі визначити "найцікавіші" питання. Я хотів би скористатися оцінкою запитань, але усунути упередження через кількість переглядів, але я не знаю, як до цього жорстко підійти. В ідеальному світі я міг би сортувати питання шляхом обчислення , …

2
Байесівські думки про переодягнення
Я багато часу приділяв розробці методів та програмного забезпечення для перевірки прогнозних моделей у традиційній періодичній статистиці. Втілюючи в життя більше ідей Баєса, я бачу деякі ключові відмінності. По-перше, байєсівське прогностичне моделювання просить аналітика подумати над попередніми розподілами, які можуть бути налаштовані під особливості кандидата, і ці пріори підтягнуть модель …

2
Підвищення: чому ступінь навчання називається параметром регуляризації?
Параметр швидкості навчання ( ) у Gradient Boosting скорочує внесок кожної нової базової моделі - типово неглибокого дерева -, яка додається у серії. Було показано, що різко підвищити точність тестового набору, що зрозуміло, оскільки при менших кроках мінімум функції втрат можна досягти більш точно. ν∈ [ 0 , 1 ]ν∈[0,1]\nu …

1
Передбачувальне моделювання - чи варто дбати про змішане моделювання?
Для прогнозного моделювання нам потрібно ставитись до таких статистичних понять, як випадкові ефекти та незалежність спостережень (повторні заходи)? Наприклад.... У мене є дані з 5 кампаній прямої пошти (які відбувалися протягом року) з різними атрибутами та прапором для покупки. В ідеалі я використовував би всі ці дані в поєднанні для …

2
Як передбачити, коли відбудеться наступна подія, виходячи з часів попередніх подій?
Я студент середньої школи і працюю над проектом комп’ютерного програмування, але не маю багато досвіду в галузі статистики та моделювання даних поза курсом статистики середньої школи, тому я ніби не розгублений. В основному, у мене досить великий список (припустимо, він достатньо великий, щоб відповідати припущенням для будь-яких статистичних тестів чи …

4
Визначення найкращої функції підгонки кривої з лінійних, експоненціальних та логарифмічних функцій
Контекст: З питання про обмін стеком з математики (чи можу я створити програму) , хтось має набір точок , і хоче приєднати до нього криву, лінійну, експоненціальну чи логарифмічну. Звичайний метод полягає в тому, щоб почати з вибору одного з них (який визначає модель), а потім зробити статистичні розрахунки.x−yx−yx-y Але …

3
Отримання формули меж прогнозування у лінійній моделі (тобто: інтервали прогнозування)
Візьмемо такий приклад: set.seed(342) x1 <- runif(100) x2 <- runif(100) y <- x1+x2 + 2*x1*x2 + rnorm(100) fit <- lm(y~x1*x2) Це створює модель y на основі x1 та x2, використовуючи регресію OLS. Якщо ми хочемо передбачити y для даного x_vec, ми можемо просто використати формулу, отриману з summary(fit). Однак що …

1
Покрокова АПК - Чи існують суперечки щодо цієї теми?
Я прочитав незліченну кількість публікацій на цьому веб-сайті, які надзвичайно суперечать використанню ступінчастого вибору змінних, використовуючи будь-який критерій, будь то p-значення, AIC, BIC тощо. Я розумію, чому ці процедури взагалі досить погані для вибору змінних. Мабуть, відомий пост Гунґа тут чітко ілюструє, чому; врешті-решт ми перевіряємо гіпотезу на тому ж …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.