Примітка. Хоча я вважаю, що моя відповідь, ймовірно, правильна, я також відчуваю сумніви через те, що я все це вигадав, думаючи про цю проблему лише після того, як прочитав це питання протягом 30-60 хвилин. Тож вам краще скептично поставитись до цього, і не обманюйтесь моїм надмірно впевненим стилем написання (я використовую великі слова та вигадливі грецькі символи не означає, що я правий).
Підсумок
Це лише підсумок. Всі подробиці вказані в розділах і § 2 нижче.§ 1§ 2
Припустимо випадок класифікації (може поширюватися і на регресію, але опустити для стислості). По суті, наша мета - оцінити похибку лісу дерев. І помилка поза сумкою, і перехресне підтвердження k-кратної спроби сказати нам ймовірність того, що:
- Ліс дає правильну класифікацію (k-кратна перехресна перевірка дивиться на це таким чином).
Що ідентично ймовірності того, що:
- Більшість голосів лісових дерев - це правильне голосування (OOBE дивиться на це таким чином).
І обидва однакові. Єдина відмінність полягає в тому, що k-кратна перехресна перевірка та OOBE передбачають різний розмір навчальних зразків. Наприклад:
- У 10-кратній перехресній валідації навчальний набір становить 90%, тоді як тестовий набір - 10%.
- Однак у OOBE, якщо кожен мішок має проб, таких що n = загальна кількість зразків у цілому наборі зразків, то це означає, що навчальний набір становить практично близько 66% (дві третини), а набір для тестування - близько 33% ( одна третя).нn =
Тому, на мій погляд, єдина причина, чому OOBE є песимістичною оцінкою помилки лісу, полягає лише в тому, що вона, як правило, тренує меншу кількість зразків, ніж зазвичай це робиться з k-кратною перехресною валідацією (де 10 разів є загальною).
Зважаючи на це, я також думаю, що дворазова перехресна перевірка буде більш песимістичною оцінкою помилки лісу, ніж OOBE, а 3-кратна перехресна перевірка - приблизно однаково песимістична щодо OOBE.
1. Розуміння помилки поза сумкою
1.1 Загальний вигляд розробки мішків
Кожне дерево в РФ вирощується списком з зразків, які випадковим чином витягуються з навчального набору X із заміною. Таким чином, n багатьох зразків можуть мати дублікати, і якщо n = | X | то можна виявити, що приблизно одна третина зразків у X , ймовірно, не потрапляє до списку п яти зразків, які використовуються для вирощування даного дерева (це зразки з мішків цього конкретного дерева. Цей процес незалежно повторюється для кожного дерева, тому кожне дерево має різний набір зразків з мішків.нХнn = | Х|Хн
1.2. Ще одна думка щодо мішковини
Тепер давайте переопишемо розфасовки трохи по-іншому з надією знайти рівний опис, який, сподіваємось, простіше вирішити.
Я роблю це, заявивши , що дерево навчаються за пакетірованих зразкам в наборі X т ⊆ X . Однак це не зовсім вірно, оскільки множина X t не має дублюваних зразків (так працюють множини), в той час як -у іншій русі n список зразків може мати дублікати.тХт⊆ XХтн
тХт ХтХt , 1, Xt , 2, … , Xт , р⊆ Xт
| Хт| + ∑i = 1r| Хt , i| =n
С= { Xт, Xt , 1, … , Xт , р}нСi∈ Cа1 ≤ p ≤ nia [ p ] ∈ Ci.
наХт§ 2а
1.3. Спрощення пакетування
тaXt
ntXtt′a
Xt
І причина, на яку я вважаю, що ентропії не будуть систематично змінюватися для даного розщеплення, - це тому, що емпірично виміряна ймовірність вибірки, що має конкретну мітку в деякому підмножині (після застосування розколу рішення), також не зміниться.
Xtd
1.4 Вимірювання помилок, що знаходяться в мішку
OttOt=X∖Xtt
total x in Ot correctly classified by t|Ot|
nt∑ntt=1total x in Ot correctly classified by t∑ntt=1|Ot|
2. Розуміння k-кратної перехресної перевірки
XnkK={K1,K2,…,Knk}K1∪K2∪…∪Knk=XKi,Kj∈KKi∩Kj=∅
KtK∖{Kt}
fK∖{Kt}
f
∑nkt=1total x in Kt correctly classified by f∑nkt=1|Kt|
f