Це швидко стає очевидним, дивлячись на багато розповідей про "різноманітне припущення", що багато письменників помітно неохайні щодо його значення. Більш ретельні визначають це за допомогою тонкого, але надзвичайно важливого застереження : що дані лежать на низькому розмірі та є близькими до нього.
Навіть ті, хто не включає в себе пункт «або близький до», чітко приймають припущення про багатоманітність як приблизну вигадку, зручну для виконання математичного аналізу, оскільки їхні програми повинні обмірковувати відхилення між даними та оцінним колектором. Дійсно, багато письменників пізніше запроваджують явний механізм відхилень, наприклад, споглядаючи регресію проти де обмежений лежати на різноманітті але може включати випадкові відхилення. Це еквівалентно припущенню, що кортежі лежать близькоyxxMk⊂Rd y(xi,yi)до, але необов'язково, на зануреному -вимірному багатообразові формиk
(x,f(x))∈Mk×R⊂Rd×R≈Rd+1
для деякої гладкої (регресійної) функції . Оскільки ми можемо розглядати всі збурені точки , які просто близькі до графіка (a мірного множини), як лежачі на з - мірного різноманіття , це допомагає пояснити , чому така недбалість про розрізняючи «на» від «близький до" може бути неважливим в теорії.f:Rd→R(x,y)=(x,f(x)+ε)fkk+1Mk×R
Різниця між "увімкнено" та "близько до" надзвичайно важлива для програм. "Близько до" дозволяє, щоб дані могли відхилятися від колектора. Таким чином, якщо ви вирішите оцінити цей колектор, то типову кількість відхилень між даними та колектором можна кількісно визначити. Один пристосований колектор буде кращим, ніж інший, коли типова кількість відхилень менша, при інших рівних умовах.
На малюнку показані дві версії припущення про колектор для даних (великі сині точки): чорний колектор порівняно простий (для опису потрібні лише чотири параметри), але лише наближається до даних, тоді як червоний пунктирний колектор відповідає даних ідеально, але складний (потрібно 17 параметрів).
Як і у всіх подібних проблемах, існує складність між складністю опису колектора і добротою пристосування (проблема надмірного пристосування). Це завжди так , що одновимірний різноманіття можна знайти , щоб відповідати будь-яке кінцеве кількість даних в відмінно (як з червоною пунктирною колектора на малюнку, просто запустити гладку криву через всі крапки , у будь-якому порядку: майже напевно він не перетинатиметься, але якщо це станеться, завадить крива в околицях будь-якого такого перехрестя, щоб усунути його). З іншого боку, якщо допускається лише обмежений клас колекторів (наприклад, лише прямі евклідові гіперплани), то гарне прилягання може бути неможливим, незалежно від розмірів, а типове відхилення між даними та приляганням може бути великим.Rd
Це призводить до прямого, практичного способу оцінки припущення про багатоманітність: якщо модель / предиктор / класифікатор, розроблена з припущення про колектор, працює добре, тоді припущення було виправданим. Таким чином, відповідними умовами, поставленими у цьому питанні, будуть те, що якась відповідна міра корисності придатності буде прийнятно невеликою. (Яка міра? Це залежить від проблеми і рівнозначно вибору функції збитків.)
Цілком можливо, що колектори різного виміру (з різними видами обмежень на їх кривизну) можуть однаково добре відповідати даним - і прогнозувати дані, що утримуються - однаково. Нічого не можна «довести» щодо «основного» колектора в цілому, особливо при роботі з великими, брудними людськими наборами даних. Зазвичай ми можемо сподіватися на те, що пристосований колектор є хорошою моделлю.
Якщо ви не придумали хорошої моделі / прогноктора / класифікатора, то або припущення про колектор недійсне, ви припускаєте багатовимірні розміри, або ви не виглядали досить важко або досить добре.