Що означає розмір VC про глибоке навчання?


15

У базовому машинному навчанні нас навчають наступним "правилам":

a) розмір ваших даних повинен бути щонайменше в 10 разів більший за розмір VC вашого набору гіпотез.

б) нейронна мережа з N з'єднаннями має розмір VC приблизно N.

Отже, коли нейрональна мережа глибокого навчання має, скажімо, мільйони одиниць, чи це означає, що ми повинні мати, скажімо, мільярди точок даних? Можете, будь ласка, пролити трохи світла на це?


Глибока нейронна мережа не буде мати мільйони одиниць, як ви заявляєте. Однак він матиме мільйонні зв’язки. Я б припустив, що ваше друге правило не відповідає цим мережам, в першу чергу завдяки регульованому характеру (наприклад, CNN із випадом).
пір

Я думаю, що головне в тому, що пов'язані з ВК не є нескінченними. Якщо вона кінцева, то теорія PAC говорить нам, що навчання можливо. Скільки даних, це інше питання.
Владислав Довгалеч

Відповіді:


4

Основне правило, про яке ви говорите, не може бути застосоване до нейронної мережі.

Нейронна мережа має деякі основні параметри, тобто її ваги та зміщення. Кількість ваг залежить від кількості з'єднань між мережевими шарами, а кількість зміщення залежить від кількості нейронів.

Розмір необхідних даних сильно залежить від -

  1. Тип використовуваної нейронної мережі .
  2. Методи регуляризації, використовувані в мережі .
  3. Коефіцієнт навчання, який використовується при навчанні мережі.

З цього приводу, більш правильним і впевненим способом дізнатися, чи є модель придатною, є перевірити, чи похибка перевірки близька до помилки навчання. Якщо так, то модель працює нормально. Якщо ні, то модель, швидше за все, є надмірною, і це означає, що вам потрібно зменшити розмір вашої моделі або застосувати методи регуляризації.


Вам слід жартувати, коли ви говорите, що найкращий спосіб зрозуміти, чи є модель переоснащеною - перевірити, чи помилка перевірки близька до помилки навчання.
nbro

6
@nbro, якщо у вас є правильний набір для перевірки на помилку перевірки, це набагато надійніший показник перевитрати для вашої конкретної тренувальної мережі, ніж проходження звичайно дуже вільних меж ВК.
Дугал

@Dougal Ви просто повторюєте те, що сказали у своїй відповіді.
nbro

3
Не моя відповідь @nbro. Але, зважаючи на набір валідації, ви можете отримати тривіальну високу ймовірність, пов’язану з істинною помилкою узагальнення за допомогою Hoeffding або подібного, тоді як проходження VC-меж включає в себе безліч вільних верхніх меж, не характерних для конкретного набору даних та мережі рукою.
Дугал
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.