Як довести, що припущення колектора правильне?

9

У машинному навчанні часто передбачається, що набір даних лежить на гладкому низькомірному колекторі (припущення про колектор), але чи є якийсь спосіб довести, що при дотриманні певних умов виконано, то набір даних справді (приблизно) генерується від маломірного гладкого колектора?

Наприклад, задана послідовність даних де (скажімо послідовність зображень обличчя під різними кутами) та відповідна послідовність міток де (скажімо кути послідовності обличчя). Припустимо, коли та дуже близькі, їхні позначки та також дуже близькі, ми можемо уявити, що ймовірно, що $\{\mathbf{X}_1 \ldots \mathbf{X}_n\}$ $\mathbf X_i \in \mathbb{R}^d$ $\{ y_1 \ldots y_n\}$ $y_1 \preceq y_2 \ldots \preceq y_n$ $X_i$ $X_{i+1}$ $y_i$ $y_{i+1}$ $\{\mathbf{X}_1 \ldots \mathbf{X}_n\}$ лежать на маломірному колекторі. Це правда? Якщо так, то як ми можемо це довести? Або яким умовам потрібно виконувати послідовність, щоб довести, що припущення про багатоманітність може бути істинним?

machine-learning dimensionality-reduction manifold-learning

— мислити
джерело

10

Це швидко стає очевидним, дивлячись на багато розповідей про "різноманітне припущення", що багато письменників помітно неохайні щодо його значення. Більш ретельні визначають це за допомогою тонкого, але надзвичайно важливого застереження : що дані лежать на низькому розмірі та є близькими до нього.

Навіть ті, хто не включає в себе пункт «або близький до», чітко приймають припущення про багатоманітність як приблизну вигадку, зручну для виконання математичного аналізу, оскільки їхні програми повинні обмірковувати відхилення між даними та оцінним колектором. Дійсно, багато письменників пізніше запроваджують явний механізм відхилень, наприклад, споглядаючи регресію проти де обмежений лежати на різноманітті але може включати випадкові відхилення. Це еквівалентно припущенню, що кортежі лежать близько $y$ $\mathrm x$ $\mathrm x$ $M^k\subset \mathbb{R}^d$ $y$ $(\mathrm x_i, y_i)$ до, але необов'язково, на зануреному -вимірному багатообразові форми $k$

(x, f (x)) \in M^{k} \times R \subset R^{d} \times R \approx R^{d + 1}

$(\mathrm x,f(x)) \in M^k \times \mathbb{R} \subset \mathbb{R}^d\times \mathbb{R}\approx \mathbb{R}^{d+1}$

для деякої гладкої (регресійної) функції . Оскільки ми можемо розглядати всі збурені точки , які просто близькі до графіка (a мірного множини), як лежачі на з - мірного різноманіття , це допомагає пояснити , чому така недбалість про розрізняючи «на» від «близький до" може бути неважливим в теорії. $f:\mathbb{R}^d\to \mathbb{R}$ $(\mathrm x,y)=(\mathrm x,f(\mathrm x)+\varepsilon)$ $f$ $k$ $k+1$ $M^k\times \mathbb R$

Різниця між "увімкнено" та "близько до" надзвичайно важлива для програм. "Близько до" дозволяє, щоб дані могли відхилятися від колектора. Таким чином, якщо ви вирішите оцінити цей колектор, то типову кількість відхилень між даними та колектором можна кількісно визначити. Один пристосований колектор буде кращим, ніж інший, коли типова кількість відхилень менша, при інших рівних умовах.

Малюнок

На малюнку показані дві версії припущення про колектор для даних (великі сині точки): чорний колектор порівняно простий (для опису потрібні лише чотири параметри), але лише наближається до даних, тоді як червоний пунктирний колектор відповідає даних ідеально, але складний (потрібно 17 параметрів).

Як і у всіх подібних проблемах, існує складність між складністю опису колектора і добротою пристосування (проблема надмірного пристосування). Це завжди так , що одновимірний різноманіття можна знайти , щоб відповідати будь-яке кінцеве кількість даних в відмінно (як з червоною пунктирною колектора на малюнку, просто запустити гладку криву через всі крапки , у будь-якому порядку: майже напевно він не перетинатиметься, але якщо це станеться, завадить крива в околицях будь-якого такого перехрестя, щоб усунути його). З іншого боку, якщо допускається лише обмежений клас колекторів (наприклад, лише прямі евклідові гіперплани), то гарне прилягання може бути неможливим, незалежно від розмірів, а типове відхилення між даними та приляганням може бути великим. $\mathbb{R}^d$

Це призводить до прямого, практичного способу оцінки припущення про багатоманітність: якщо модель / предиктор / класифікатор, розроблена з припущення про колектор, працює добре, тоді припущення було виправданим. Таким чином, відповідними умовами, поставленими у цьому питанні, будуть те, що якась відповідна міра корисності придатності буде прийнятно невеликою. (Яка міра? Це залежить від проблеми і рівнозначно вибору функції збитків.)

Цілком можливо, що колектори різного виміру (з різними видами обмежень на їх кривизну) можуть однаково добре відповідати даним - і прогнозувати дані, що утримуються - однаково. Нічого не можна «довести» щодо «основного» колектора в цілому, особливо при роботі з великими, брудними людськими наборами даних. Зазвичай ми можемо сподіватися на те, що пристосований колектор є хорошою моделлю.

Якщо ви не придумали хорошої моделі / прогноктора / класифікатора, то або припущення про колектор недійсне, ви припускаєте багатовимірні розміри, або ви не виглядали досить важко або досить добре.

— дзижчати
джерело

1

+1 Дуже приємно. Дозвольте додати (не маючи на увазі, що ви поділяєте мою думку), що це ще раз показує, чому принциповий, але скептичний і часто орієнтовний спосіб мислення, який культивується у статистиці протягом багатьох років, дуже важливий для часто невиразних, швидких, блискучих-нових, іграшковий світ машинного навчання та наукових даних.

— Момо

5

Будь-який кінцевий набір точок може вміститись у будь-якому різноманітті (необхідний посилання на теорему, я не можу згадати, що таке теорема, я просто пам'ятаю цей факт з uni).

Якщо не хочеться, щоб усі точки були ідентифіковані, то найменший можливий вимір - 1.

Візьмемо простий приклад, враховуючи N 2d точок, існує деякий поліном N - 1 порядку, де всі N точок лежать на цьому поліномі. Тому у нас є 1d колектор для будь-якого 2d набору даних. Я думаю, що логіка довільних розмірів схожа.

Отже, це не проблема, реальні припущення - про структуру / простоту колектора, особливо, коли трактуються пов'язані риманові колектори як метричні простори. Я читав статті про цю різноманітну хокус, і виявив, якщо уважно читаєш, з'являються якісь величезні припущення!

Зроблені припущення - це коли припущене визначення поняття «близькість» передбачає «збереження інформації в нашому наборі даних», але оскільки це формально не визначено в інформаційно-теоретичних термінах, то отримане визначення є досить спеціальним і справді досить величезним припущенням. Зокрема, проблема, здається, зберігається "близькості", тобто дві близькі точки, тримаються поруч, але "далекості" немає, і тому дві "далекі" точки не залишаються далеко.

На закінчення я б дуже насторожено ставився до таких хитрощів у машинному навчанні, якщо відомий набір даних справді не є природним евклідовим, наприклад, візуальним розпізнаванням образів. Я б не вважав ці підходи прийнятними для більш загальних проблем.

— samthebest
джерело

Дякую! Ваша відповідь допомогла мені краще зрозуміти проблему. Не могли б ви порекомендувати деякі статті стосовно припущення про багаторіччя, яке ви згадали тут?

— thinkbear

Вибачте, не можу пам’ятати, Google повинен бути в змозі допомогти :)

— samthebest