Наскільки великий навчальний набір потрібен?


24

Чи існує загальний метод, який використовується для визначення кількості навчальних зразків, необхідних для підготовки класифікатора (LDA у цьому випадку) для отримання мінімальної точності узагальнення порогу?

Я прошу, тому що я хотів би мінімізувати час калібрування, який зазвичай потрібен в інтерфейсі мозок-комп'ютер.


2
user2030669, @cbeleites відповідь нижче є чудовою, але як грубе правило: вам потрібно принаймні в 6 разів перевищувати кількість випадків (зразків) як функцій.
BGreene

2
... у кожному класі. Я також бачив рекомендації 5p та 3p / class.
cbeleites підтримує Моніку

Відповіді:


31

Пошуковий термін, який ви шукаєте, - "крива навчання", яка дає (середню) ефективність моделі як функцію від розміру вибіркової підготовки.

Криві навчання залежать від багатьох речей, наприклад

  • метод класифікації
  • складність класифікатора
  • наскільки добре розділені класи.

(Я думаю, що для двокласного LDA ви можете отримати деякі теоретичні розрахунки потужності, але вирішальним фактом є завжди, чи ваші дані відповідають дійсно припущенню "рівного багатоваріантного нормального нормального" COV. припущення та перекомпонування ваших уже наявних даних).

н (як завжди),

  • нн= навчання випадків (зазвичай це означає кривої навчання), і
  • н

    н

Ще один аспект, який, можливо, вам доведеться врахувати, - це те, що зазвичай недостатньо для підготовки хорошого класифікатора, але вам також потрібно довести, що класифікатор хороший (або достатньо хороший). Тому потрібно запланувати також розмір вибірки, необхідний для перевірки з заданою точністю. Якщо вам потрібно надати ці результати як частку успіху серед такої кількості тестових випадків (наприклад, точність / точність / чутливість / позитивне передбачуване значення виробника чи споживача), а основне завдання класифікації є досить простим, для цього можуть знадобитися більше незалежних випадків, ніж навчання хороша модель.

Як правило, для тренінгу розмір вибірки, як правило, обговорюється щодо складності моделі (кількість випадків: кількість змінних), тоді як абсолютна межа розміру вибіркового тесту може бути задана для необхідної точності вимірювання продуктивності.

Ось стаття, де ми детальніше пояснили ці речі, а також обговоримо, як
придумати криві навчання: Белеїт, К. і Нойгебауер, У. і Бокліц, Т. і Крафтт, К. і Попп, Дж .: Планування розміру вибірки для класифікаційних моделей. Anal Chim Acta, 2013, 760, 25-33.
DOI: 10.1016 / j.aca.2012.11.007
прийнято рукопис на arXiv: 1211.1323

Це "тизер", який показує просту проблему класифікації (ми фактично маємо одне просте розмежування, як це в нашій проблемі класифікації, але інші класи набагато складніше відрізнити): папір для планування зразка тизера

Ми не намагалися екстраполювати на більші розміри навчальних зразків, щоб визначити, наскільки потрібно більше навчальних випадків, оскільки розміри тестових зразків - це наше вузьке місце, а більші розміри навчальних зразків дозволять нам побудувати більш складні моделі, тому екстраполяція викликає сумніви. Для того, який тип наборів даних я маю, я підходив би до цього ітеративно, вимірюючи купу нових справ, показуючи, наскільки покращилися речі, вимірюють більше справ тощо.

Це може бути різним для вас, але в цьому документі є літературні посилання на документи, що використовують екстраполяцію на більші розміри вибірки, щоб оцінити необхідну кількість зразків.


Чи дозволить використання схеми регуляризації для мого ЛДА мені працювати з меншим навчальним набором?
Lunat1c

1
@ user2036690, Для більш парсимоніальної моделі (менше функцій) знадобиться менше навчальних зразків. Схема регуляризації не впливатиме на кількість необхідних зразків, якщо лише зменшить вплив менш важливих ознак. Якась раціоналізація можливостей може дозволити менший навчальний набір
BGreene

1
Однак для вибору функцій, керованих даними, потрібна величезна кількість вибірок, оскільки кожне порівняння моделі насправді є статистичним тестом. Вибір можливостей за експертними знаннями, однак, може допомогти негайно. @BGreene: чи можете ви розширити, чому регуляризація не може допомогти зменшити вимоги до розміру вибірки (наприклад, враховуючи гребінь на матриці коваріації з умовною умовою)? ІМХО не може творити чудес, але може допомогти.
cbeleites підтримує Моніку

Ну, не потрапляючи в епічну дискусію, я мав на увазі формулювання Фридмана щодо регуляризації, а не хребет чи іншу покарану регресію. Але в будь-якому випадку коефіцієнти не зводяться до нуля, як у Лассо, тому розмірність не впливає, що в результаті не вплине на розмір вибірки, необхідний для уникнення неправомірної матриці, як ви згадуєте вище. Вибачте, якщо це здається
розгульним

@BGreene: ніяких суєт, я все-таки запитав. Цікаве питання: на скільки зменшується загальний коефіцієнт коефіцієнта корисної здатності / складності, встановлюючи коефіцієнти до нуля, керованим даними . У будь-якому випадку, ми
вникаємо

4

Якщо говорити про розмір вибірки навчального курсу, то це означає, що ви збираєтеся стримувати дані для перевірки моделі. Це нестабільний процес, який вимагає величезного розміру вибірки. Часто бажана сильна внутрішня перевірка завантажувальної стрічки. Якщо ви виберете цей шлях, вам потрібно обчислити лише один розмір вибірки. Як @cbeleites так добре сказано, це часто оцінка "подій на кандидата змінної", але вам потрібно мінімум 96 спостережень, щоб точно передбачити ймовірність бінарного результату, навіть якщо немає ознак, які слід досліджувати [цього потрібно досягти 0,95 довірчої межі похибки 0,1 при оцінці фактичної граничної ймовірності Y = 1].

Важливо враховувати належні правила балів для оцінки точності (наприклад, оцінка Brier та вірогідність / відхилення журналу). Також переконайтеся, що ви дійсно хочете класифікувати спостереження, а не оцінювати ймовірність членства. Останнє майже завжди корисніше, оскільки дозволяє сіру зону.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.