Запитання з тегом «out-of-sample»

Посилається на практику оцінки ефективності моделі за деяким набором даних "тесту", "затримки" чи "поза вибіркою", який не використовувався для побудови моделі.

8
Як я можу допомогти гарантувати, що дані тестування не просочуються до даних про навчання?
Припустимо, у нас є хтось, який будує модель прогнозування, але хтось не обов'язково добре розбирається в правильних статистичних або машинних принципах навчання. Можливо, ми допомагаємо цій людині, коли вона навчається, або, можливо, вона використовує якийсь програмний пакет, для використання якого потрібні мінімальні знання. Тепер ця людина може цілком зрозуміти, що …

4
Чи схвалив журнал Science «Сад форкінгу патетів»?
Ідея адаптивного аналізу даних полягає в тому, що ви змінюєте свій план аналізу даних, коли ви дізнаєтесь більше про них. Що стосується дослідницького аналізу даних (EDA), це, як правило, гарна ідея (ви часто шукаєте непередбачені зразки в даних), але для підтверджуючого дослідження це широко сприймається як дуже хибний метод аналізу …

5
Новий революційний спосіб передачі даних?
Наступний уривок - це інтерв'ю із стабільно успішним менеджером хедж-фондів Джаффрі Вудріфом ( майстер 2012 року) Швагера ( Wizzards Market Wizzards) (травень 2012 року): На питання: "Які найстрашніші помилки люди роблять при обробці даних?": Дуже багато людей вважають, що це нормально, оскільки вони використовують взіркові дані для тренінгу, а позамобільні …

3
Чи потрібен нам тестовий набір при використанні перехресної перевірки k-кратної?
Я читав про перевірку k-fold, і хочу переконатися, що я розумію, як це працює. Я знаю, що для методу тримання дані розбиваються на три набори, а тестовий набір використовується лише в самому кінці для оцінки продуктивності моделі, тоді як набір перевірки використовується для настройки гіперпараметрів тощо. У методі k-fold ми …

1
Чи є приватний лідер Kaggle хорошим прогнозувачем ефективності виграшної моделі поза зразком?
Хоча результати приватного тестового набору не можуть бути використані для подальшого вдосконалення моделі, чи не є вибір моделі з величезної кількості моделей на основі результатів приватного тестового набору? Чи не вдалося б ви, лише через цей процес, прилаштуватись до приватного тестового набору? Відповідно до "Псевдоматематики та фінансового шарлатанізму: Вплив перенапруження …

4
Прогностичні моделі: статистика не може перемогти машинне навчання? [зачинено]
Закрито . Це питання має бути більш зосередженим . Наразі відповіді не приймаються. Хочете вдосконалити це питання? Оновіть питання, щоб воно зосередило увагу на одній проблемі, лише відредагувавши цю публікацію . Закрито 2 роки тому . Зараз я переглядаю магістерську програму, зосереджену на статистиці / економетриці. У мого майстра всі …

3
Чому метод класифікації (розбиття даних на навчання та тестування) не використовується в класичній статистиці?
У моїй аудиторії впливу даних обміну даними метод тримання був запроваджений як спосіб оцінки продуктивності моделі. Однак, коли я взяв свій перший клас на лінійних моделях, це не було запроваджено як засіб перевірки чи оцінки моделі. Моє онлайн-дослідження також не показує ніякого перехрестя. Чому метод класифікації не використовується в класичній …


4
Що є більш підходящим способом створення набору для витримки: видалити деякі предмети або видалити спостереження з кожного предмета?
У мене є набір даних з 26 функціями та 31000 рядків. Це набір даних 38 предметів. Це для біометричної системи. Тому я хочу вміти виявляти суб'єктів. Щоб мати набір для тестування, я знаю, що я повинен видалити деякі значення. Отже, що краще робити і чому? (a) тримати 30 предметів як …

1
Чи потребує моделювання з випадковими лісами перехресне підтвердження?
Наскільки я бачив, думки щодо цього зазвичай відрізняються. Найкраща практика, безумовно, диктує використання перехресної перевірки (особливо якщо порівнювати радіочастотні сигнали з іншими алгоритмами на тому ж наборі даних). З іншого боку, першоджерело зазначає, що обчислюється похибка OOB під час навчання моделі є достатньою для показника продуктивності тестового набору. Навіть Тревор …

2
"Значна змінна", яка не покращує позапробні прогнози - як інтерпретувати?
У мене виникає питання, яке, на мою думку, буде досить основним для багатьох користувачів. Я використовую лінійні регресійні моделі для (i) дослідження взаємозв'язку декількох пояснювальних змінних та моєї змінної відповіді та (ii) передбачення моєї змінної відповіді за допомогою пояснювальних змінних. Здається, одна конкретна пояснювальна змінна X значно впливає на мій …

1
Як обчислити з зразка R квадрат?
Я знаю, що це, ймовірно, обговорювалося десь ще, але я не змогла знайти чіткої відповіді. Я намагаюся використовувати формулуR2=1−SSR/SSTR2=1−SSR/SSTR^2 = 1 - SSR/SST для розрахунку поза вибіркою R2R2R^2 лінійної регресійної моделі, де SSRSSRSSR - сума квадратних залишків і SSTSSTSST- загальна сума квадратів. Для навчального набору зрозуміло, що SST=Σ(y−y¯train)2SST=Σ(y−y¯train)2 SST = …
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.