Як називається «гаряче» кодування у науковій літературі?

10

Як називається оператор, який приймає категоричний вектор і перетворює його у двійкове представлення за допомогою однокольорового кодування? Мені цікаво, оскільки я пишу науковий документ і мені потрібна відповідна назва.

terminology categorical-encoding

— каламутний
джерело

3

Кодування манекена - це інша назва. У машинному навчанні кожен просто використовує один простий тип, тому досить зрозуміло, що це, але є й інші типи контрастного кодування (інша назва) з мінусовими та іншими ідеями, які виконують аналогічну роль, що використовується у статистиці тощо ви можете бути трохи більш конкретними.

— Gijs

7

У статистиці та аналізі даних, задовго до машинного навчання цей тип категоричного кодування був відомий як фіктивні змінні, які називаються контрастними змінними типу індикатора .

— ttnphns

18

Статистики називають одноразове кодування як фіктивне кодування . Як запропонували інші (включаючи Scortchi в коментарях), це не точний синонім, але це термін, який зазвичай використовувався для кодованих категорійних змінних 0-1.

Див. Також: "Змінна манекена" проти "змінної індикатора" для номінальних / категоричних даних

— Тім
джерело

3

Дух !! Не можу повірити, що я це забув. Я також називаю їх показниками.

— Тім Атрейдс

2

Я не вважаю, що "кодування манекенів" є хорошим синонімом. Він використовується або в загальному сенсі для позначення категоріальної змінної з набором числових змінних, або для "кодування опорного рівня" як відмінні від "однокольорового кодування", наприклад, в " Проблемах з однокольоровим кодуванням проти фіктивного кодування" . "Кодування рівня" (див. Чи є щось, що називається "середнє кодування" (на зразок фіктивного кодування та кодування ефектів) у регресійних моделях? ) Позначає кодування гарячим, але, можливо, також

— конотує

2

... сильно для загального використання.

— Scortchi

3

Я ніколи не бачив визначення як такого, але для мене фіктивна змінна статистика завжди має на увазі кодування N факторів (N-1) змінних, тоді як одне гаряче кодування кодує N факторів з N змінних. Ця різниця надзвичайно важлива на практиці. Якщо використовувати одне гаряче кодування для регресії, то отримаєш нісенітницю через залежність змінних!

— meh

2

@aginensky Хоча люди, безумовно, повинні звертати увагу на те, які саме змінні у них є, хороший режим регресії не спричинить дурниць у цій обставині: він просто опустить одного прогноктора і скаже вам це.

— Нік Кокс

8

Це залежить від вашої цільової аудиторії.

Як сказав Тім , статистики називають це фіктивним кодуванням, і саме це я б очікував побачити, описуючи щось на зразок регресійної моделі. "Змінені фіксованими змінні були включені для налаштування місця розташування магазину." Я думаю, що називати це гарячим кодуванням, здавалося б, трохи дивно.

Однак, як також сказав інший Тім , кодування в режимі «гарячого» є досить поширеним явищем у машинній навчальній літературі. Це слабко припускає наявність вузлів (як у нейронній мережі), фізичних проводів (у пристрої) чи чогось подібного, щонайменше, для мене.

Формально я думаю, ви застосовуєте набір функцій індикаторів , але це, мабуть, занадто формально поза доказом. $\mathbb{I}_X$

— Метт Краузе
джерело

6

Термін походить від інженерії електроніки. Подумайте лише, хто назвав би 1 "гарячим"? Тільки ті, хто працює з електрикою, де "гаряче" або "живе" означає, що на дроті є електричний потенціал . "Один гарячий" стосується конструкції схеми, де дискретний рівень електричного сигналу на одному проводі буде декодуватися в гарячий / холодний набір проводів. Я думаю, що деякі люди з машинного навчання з фоном EE знайшли аналогію переконливою.

У економетрії та статистиці ви можете зустріти dummyабо indicatorзмінні, які є досить схожими, оскільки вони використовуються для представлення окремих категорій з їх різними показниками. Однак є незначна різниця. Наприклад, ви робите манекени K-1 для K категорій, тому що базова категорія відповідає всім манекенам, встановленим на 0. На відміну від цього, я думаю, що в одному гарячому кодуванні ви маєте K проводів, де базова категорія матиме власний провід ( змінна).

— Аксакал
джерело

5

Я статистично підготовлений, і останнім часом чую про «гаряче кодування» в машинному навчанні / comp sci lit. Я, як правило, просто називав однонагріту матрицю як матрицю дизайну / матрицю даних / рамку дизайну.

— Тім Атрейдс
джерело

Чи є у вас посилання, яке я можу на це навести? Я пишу наукове видання і хотів би зрозуміти цей метод для всіх читачів, оскільки стаття не для спільноти МЛ, а ширшої.

— дробовий

Не можу сказати, що я коли-небудь чув "одножарливий" як дієслово. Але я аналогічно до цього приходжу з математичного / статистичного напрямку. (Результати Google на "однократному" цікаві - я отримую суміш сенсу машинного навчання, і люди говорять про "одну розпечену машину".)

— Майкл Луго

3

У фізичних науках та техніці його називають (узагальненою) дельтою Кронекера .

У найпростішому вигляді дельта Kroneker визначається як хоча це тривіально узагальнено до

\begin{aligned} δ_{i, j} \equiv {\begin{cases} 1 & if & i = j \\ 0 & else \end{cases} \end{aligned},

$\begin{align*} {\delta}_{i,j} {\equiv} \begin{cases} 1 &\text{if} & i=j \\ 0 &\text{else} \end{cases} \end{align*},$

\begin{aligned} δ_{[condition]} \equiv {\begin{cases} 1 & if & [condition] \\ 0 & else \end{cases} \end{aligned} .

$\begin{align*} {\delta}_{\left[\text{condition}\right]} {\equiv} \begin{cases} 1 &\text{if} & \left[\text{condition}\right] \\ 0 &\text{else} \end{cases} \end{align*}.$

Отже, " ", як правило, читатиметься як що найбільше автори прагнуть усікати до " ", якщо категорія очевидна з контексту. ${\delta}_{i{\in}\text{category}}$

\begin{aligned} δ_{i \in category} \equiv {\begin{cases} 1 & if & i \in category \\ 0 & else \end{cases} \end{aligned},

$\begin{align*} {\delta}_{i{\in}\text{category}} {\equiv} \begin{cases} 1 &\text{if} & i{\in}\text{category} \\ 0 &\text{else} \end{cases} \end{align*},$

δ_{i}

${\delta}_{i}$

Дельта Kronecker справді корисна в Sigma / Pi / Einstein / тощо. позначення, оскільки він дозволяє умовно визначати терміни.

Просто, щоб пов'язати це із загальними структурами програмування, дельтою Кронекера condition?1:0, де ?:є умовний оператор .

Як дотична нота, я б закликав авторів відмовитися від старої моди на користь узагальненого еквівалента, . Немає переваги старомодним позначенням, тоді як узагальнені позначення є більш явними та розширюваними. ${\delta}_{i,j}$ ${\delta}_{i=j}$

— Нат
джерело

Я не бачу тут посилання. Один гарячий декодує одну змінну в набір для кожного стану змінної. Як у цій програмі використовується дельта Kronecker?

— Аксакал

@Aksakal У цій публікації наведено приклад кодування категорії " Назва компанії " з можливими значеннями " VW ", " Acura " та " Honda ", яка стає трьома змінними за тими назвами значень, де відповідь Тіма називає ці "фіктивні змінні". Це те саме, що дельти Kronecker , , і .

{0, 1}

$\left\{0,1\right\}$

δ_{VW}

${\delta}_{\text{VW}}$

δ_{Acura}

${\delta}_{\text{Acura}}$

δ_{Honda}

${\delta}_{\text{Honda}}$

— Нат

@Aksakal Я віддаю перевагу узагальненим позначенням, але в старому позначенні це буде тощо. .

δ_{i, j}

${\delta}_{i,j}$

δ_{CompanyName, VW}

${\delta}_{\text{CompanyName},\text{VW}}$

— Nat

Манекен працює так: у вас є змінні під назвою та . Ваші спостереження , тому ви отримуєте значення та , обидва - нуль, коли автомобіль HONDA. Зауважте, що тут не марка автомобіля, це номер спостереження. Я досі не бачу, як ви підключите це до дельти Кронекера. Скажіть, якби оригінальна змінна була , тоді дельта працювала б як

V W

$VW$

A C U R A

$ACURA$

i = 1.. N

$i=1..N$

V W_{i}

$VW_i$

A C U R A_{i}

$ACURA_i$

i

$i$

C A R_{i}

$CAR_i$

V W_{i} = δ (C A R_{i}, V W)

$VW_i=\delta(CAR_i,VW)$

— Аксакал

@Aksakal Значення, яке ви називаєте " ", це або . Якщо VW, то це було б ; в іншому випадку це .

{V W}_{i}

${VW}_{i}$

{δ_{VW}}_{i}

${{\delta}_{\text{VW}}}_i$

δ_{i \in VW}

${\delta}_{i{\in}\text{VW}}$

i

$i$

1

$1$

0

$0$

— Нат

2

Розпізнавання образів та машинне навчання Крістофера Бішопа використовує схему терміна -of- . $1$ $K$

Ось цитата з книги,

Бінарні змінні можуть бути використані для опису величин, які можуть приймати одне з двох можливих значень. Однак часто ми зустрічаємо дискретні змінні, які можуть приймати один з можливих взаємовиключних станів. Хоча існують різні альтернативні способи вираження таких змінних, ми незабаром побачимо, що особливо зручним поданням є схема -of- , в якій змінна представлена -вимірним вектором у якому один із елементи дорівнюють , а всі інші елементи рівні . Так, наприклад, якщо у нас є змінна, яка може приймати $K$ $1$ $K$ $K$ $\textbf{x}$ $x_k$ $1$ $0$ $K = 6$ стани, і певне спостереження змінної, можливо, відповідає стану, де , тоді буде представлений символом, $x_3 = 1$ $\textbf{x}$

$\textbf{x} = (0, 0, 1, 0, 0, 0)^{T}$

— кедрпс
джерело