Пошуковий термін, який ви шукаєте, - "крива навчання", яка дає (середню) ефективність моделі як функцію від розміру вибіркової підготовки.
Криві навчання залежать від багатьох речей, наприклад
- метод класифікації
- складність класифікатора
- наскільки добре розділені класи.
(Я думаю, що для двокласного LDA ви можете отримати деякі теоретичні розрахунки потужності, але вирішальним фактом є завжди, чи ваші дані відповідають дійсно припущенню "рівного багатоваріантного нормального нормального" COV. припущення та перекомпонування ваших уже наявних даних).
н (як завжди),
- нn = ∞ навчання випадків (зазвичай це означає кривої навчання), і
- н
н
Ще один аспект, який, можливо, вам доведеться врахувати, - це те, що зазвичай недостатньо для підготовки хорошого класифікатора, але вам також потрібно довести, що класифікатор хороший (або достатньо хороший). Тому потрібно запланувати також розмір вибірки, необхідний для перевірки з заданою точністю. Якщо вам потрібно надати ці результати як частку успіху серед такої кількості тестових випадків (наприклад, точність / точність / чутливість / позитивне передбачуване значення виробника чи споживача), а основне завдання класифікації є досить простим, для цього можуть знадобитися більше незалежних випадків, ніж навчання хороша модель.
Як правило, для тренінгу розмір вибірки, як правило, обговорюється щодо складності моделі (кількість випадків: кількість змінних), тоді як абсолютна межа розміру вибіркового тесту може бути задана для необхідної точності вимірювання продуктивності.
Ось стаття, де ми детальніше пояснили ці речі, а також обговоримо, як
придумати криві навчання: Белеїт, К. і Нойгебауер, У. і Бокліц, Т. і Крафтт, К. і Попп, Дж .: Планування розміру вибірки для класифікаційних моделей. Anal Chim Acta, 2013, 760, 25-33.
DOI: 10.1016 / j.aca.2012.11.007
прийнято рукопис на arXiv: 1211.1323
Це "тизер", який показує просту проблему класифікації (ми фактично маємо одне просте розмежування, як це в нашій проблемі класифікації, але інші класи набагато складніше відрізнити):
Ми не намагалися екстраполювати на більші розміри навчальних зразків, щоб визначити, наскільки потрібно більше навчальних випадків, оскільки розміри тестових зразків - це наше вузьке місце, а більші розміри навчальних зразків дозволять нам побудувати більш складні моделі, тому екстраполяція викликає сумніви. Для того, який тип наборів даних я маю, я підходив би до цього ітеративно, вимірюючи купу нових справ, показуючи, наскільки покращилися речі, вимірюють більше справ тощо.
Це може бути різним для вас, але в цьому документі є літературні посилання на документи, що використовують екстраполяцію на більші розміри вибірки, щоб оцінити необхідну кількість зразків.