Iid припущення про пари , , часто робиться в статистиці та в машинному навчанні. Іноді з поважної причини, іноді із зручності, а іноді просто тому, що ми зазвичай робимо це припущення. Щоб задовільно відповісти, якщо припущення справді необхідне, і які наслідки є неприйняття цього припущення, я б легко закінчився написанням книги (якщо ви коли-небудь легко в кінці робите щось подібне). Тут я спробую дати короткий огляд того, що я вважаю найважливішим аспектом.i = 1 , … , N(Xi,yi)i=1,…,N
Фундаментальне припущення
Припустимо, що ми хочемо вивчити модель ймовірностей заданої , яку ми називаємо . Ми не робимо жодних припущень щодо цієї моделі апріорно, але зробимо мінімальне припущення, що така модель існує така, щоX p ( y ∣ X )yXp(y∣X)
- умовний розподіл даного дорівнює .X i p ( y i ∣ X i )yiXip(yi∣Xi)
Що варто відзначити у цьому припущенні, це те, що умовний розподіл залежить від лише через . Саме це робить модель корисною, наприклад, для прогнозування. Припущення є наслідком ідентично розподіленої частини за припущенням iid, але вона слабша, оскільки ми не робимо жодних припущень щодо . i X i X iyiiXiXi
Згодом акцентується в основному на ролі незалежності.
Моделювання
Є два основні підходи до вивчення моделі заданого . Один підхід відомий як дискримінаційне моделювання, а другий - генеративне моделювання.XyX
- Дискримінаційне моделювання : ми моделюємо безпосередньо, наприклад, логістичну модель регресії, нейронну мережу, дерево або випадковий ліс. Працює моделювання припущення , як правило , буде що «и умовно незалежний , враховуючи » s, хоча методи оцінки , які спираються на проріджуванні або Самозавантаження максимального значення під IID або слабші обмениваемости припущення (див нижче). Але загалом для дискримінаційного моделювання нам не потрібно робити припущення щодо розподілу щодо . y i X i X ip(y∣X)yiXiXi
- Генеративне моделювання : ми моделюємо спільний розподіл, , з , моделюючи умовний розподіл та граничний розподіл . Тоді ми використовуємо формулу Байєса для обчислення . Приклади лінійного дискримінантного аналізу та наївних методів Байєса. Працює моделювання припущення зазвичай буде н.о.р. припущення.p(X,y)(X,y)p(X∣y)p(y)p(y∣X)
Для обох моделюючих підходів робоче припущення моделювання використовується для отримання або пропонування методів навчання (або оцінювачів). Це може бути завдяки максимізації (пеніалізованої) ймовірності журналу, мінімізації емпіричного ризику або використанню методів Байєса. Навіть якщо припущення робочого моделювання невірно, отриманий метод все ще може забезпечити розумне прилягання . p(y∣X)
Деякі методи, що застосовуються разом з дискримінаційним моделюванням, такі як мішковування (агрегація завантажувального завантаження), працюють шляхом пристосування багатьох моделей до даних, відібраних випадковим чином із набору даних. Без припущення iid (або обмінності) перекомпоновані набори даних не матимуть спільного розподілу, подібного до вихідного набору даних. Будь-яка структура залежності стала "заплутаною" шляхом перекомпонування. Я не замислювався над цим глибоко, але не бачу, чому це повинно обов'язково порушити метод як метод для вивчення . Принаймні, не для методів, заснованих на припущеннях про робочу незалежність. Я щасливий, що тут виявилися неправильними.p(y∣X)
Межі послідовності та помилок
Центральним питанням для всіх методів навчання є те, чи призводять вони до моделей, близьких до . Існує велика теоретична література зі статистики та машинного навчання, що стосується послідовності та меж помилок. Основна мета цієї літератури - довести, що вивчена модель близька до коли велике. Послідовність є якісною гарантією, тоді як межі помилок забезпечують (напів) явний кількісний контроль близькості та дають швидкість конвергенції.p(y∣X)p(y∣X)N
Теоретичні результати залежать від припущень щодо спільного розподілу спостережень у наборі даних. Часто робляться згадані вище припущення щодо моделювання (тобто умовна незалежність для дискримінаційного моделювання та ідентифікація для генеративного моделювання). Для дискримінаційного моделювання межі послідовності та помилок вимагатимуть, щоб відповідав певним умовам. У класичній регресії однією з таких умов є for , де позначає матрицю дизайну з рядкиXi1NXTX→ΣN→∞XXTi. Слабших умов може бути достатньо для консистенції. У розрізненому вивченні ще однією такою умовою є умова обмеженого власного значення, див., Наприклад, Про умови, які використовуються для доказування результатів оракула для Лассо . Припущення про iid разом з деякими технічними припущеннями про розподіл означає, що деякі такі достатні умови виконуються з великою ймовірністю, і, таким чином, припущення про iid може виявитись достатнім, але не необхідним припущенням для отримання послідовності та меж помилок для дискримінаційного моделювання.
Припущення про незалежність робочого моделювання може бути неправильним для будь-якого з підходів моделювання. Як грубе правило, все одно можна очікувати узгодженості, якщо дані надходять з ергодичного процесу , і все ж можна очікувати певних меж помилок, якщо процес досить швидко змішується . Точне математичне визначення цих понять відвело б нас від головного питання. Досить зазначити, що існують структури залежності, окрім припущення, в якому можуть бути доведені методи навчання, як прагне до нескінченності.N
Якщо ми маємо більш детальні знання про структуру залежності, ми можемо вибрати замінити припущення про робочу незалежність, яке використовується для моделювання, на модель, яка також фіксує структуру залежності. Це часто робиться для часових рядів. Краще працююча модель може призвести до більш ефективного методу.
Оцінка моделі
Замість того, щоб довести, що метод навчання дає модель, близьку до має велике практичне значення отримати (відносну) оцінку "наскільки хороша вивчена модель". Такі бали оцінювання можна порівняти для двох або більше вивчених моделей, але вони не дадуть абсолютної оцінки того, наскільки близька вивчена модель до . Оцінки балів оцінювання, як правило, обчислюються емпірично на основі поділу набору даних на навчальний та тестовий набір даних або за допомогою перехресної перевірки.p ( y ∣ X )p(y∣X)p(y∣X)
Як і у випадку з пакетуванням, випадкове розбиття набору даних "зіпсує" будь-яку структуру залежності. Однак для методів, що ґрунтуються на припущеннях про робочу незалежність, припущення про ергодичність, слабкіші за Iid, повинні бути достатніми для того, щоб оцінки оцінок були обґрунтованими, хоча стандартні помилки в цих оцінках скласти дуже складно.
[ Редагувати: залежність між змінними призведе до розподілу вивченої моделі, що відрізняється від розподілу за припущенням iid. Оцінка, отримана за допомогою перехресної перевірки, очевидно не пов'язана з помилкою узагальнення. Якщо залежність сильна, швидше за все це буде поганою оцінкою.]
Підсумок (tl; dr)
Все вищевикладене полягає в припущенні, що існує фіксована умовна імовірнісна модель, . Таким чином, не може бути тенденцій чи раптових змін у умовному розподілі, не зафіксованих .Xp(y∣X)X
При вивченні моделі заданого незалежність відіграє рольXyX
- корисне робоче припущення моделювання, яке дозволяє нам виводити методи навчання
- достатнє, але не необхідне припущення для доведення послідовності та надання меж помилок
- достатнє, але не необхідне припущення для використання випадкових методів розбиття даних, таких як обробка для навчання та перехресне підтвердження для оцінки.
Точно зрозуміти, які альтернативи iid, які також є достатніми, є нетривіальним і певною мірою предметом дослідження.