Що в назві: гіперпараметри

19

Отже, у нормальному розподілі маємо два параметри: середнє та дисперсію . У книзі Розпізнавання візерунків та машинне навчання несподівано з’являється гіперпараметр в умовах регуляризації функції помилок. $\mu$ $\sigma^2$ $\lambda$

Що таке гіперпараметри? Чому їх називають такими? І чим вони інтуїтивно відрізняються від параметрів загалом?

— cgo
джерело

3

Я особисто думаю, що це епідемія людей, які переживають гіпертонію. Гіпер це, гіпер що. Гіперсфера - це сфера, d @ manit, перестаньте бути такою гіпер, лише тому, що розмірність перевищує 3. Гіперпараметр - це параметр, d @ mnit, перестаньте отримувати гіпер просто тому, що їх у вас є кілька, і вам якось здається, що вам здається, що вам потрібно вказати ієрархічний рівень чи щось таке. У будь-якому випадку, якщо у вас є проблема оптимізації, чітко пропишіть, які параметри оптимізуються, і які обмеження (якщо це багаторівнева оптимізація, випишіть це). Я сподіваюся, що в цьому коментарі я не став надто гіпертурбований.

— Марк Л. Стоун

2

Я завжди використовував "гіперсферу", щоб означати "співмірність однієї сфери", так що, принаймні, з математики, здається, щось означає. Або принаймні, коли я говорю про математику. Я зараз заспокійся.

— Меттью Друрі

18

Термін гіперпараметр досить розпливчастий. Я буду використовувати його для позначення параметра, який знаходиться на більш високому рівні ієрархії, ніж інші параметри. Для прикладу розглянемо регресійну модель з відомою дисперсією (1 у цьому випадку)

y \sim N (X β, I)

$y \sim N(X\beta,I)$

а потім пріоритет за параметрами, наприклад

β \sim N (0, λ I)

$\beta \sim N(0,\lambda I)$

Тут визначає розподіл а визначає розподіл для . Коли я хочу просто посилатися на я можу назвати його параметром, а коли я хочу просто посилатися на , я можу називати його гіперпараметром. $\lambda$ $\beta$ $\beta$ $y$ $\beta$ $\lambda$

Іменування ускладнюється, коли параметри відображаються на кількох рівнях або коли є більше ієрархічних рівнів (і ви не хочете використовувати термін гіпергіперпараметри). Найкраще, якщо автор уточнить, що саме мається на увазі, коли вони використовують термін гіперпараметр або параметр для цього питання.

— jaradniemi
джерело

Це приємне пояснення. Я зараз уявляю це як "склад функцій-ish". Щоб перекласти те, що ви вводите в символи,

звичайно розподіляється із середнім

, але

у свою чергу, як правило, розподіляється так і так. Дякую

y

$y$

X β

$X\beta$

b e t a

$beta$

— cgo

10

Гіперпараметр - це просто параметр, який повністю чи частково впливає на інші параметри. Вони не вирішують безпосередньо оптимізаційну проблему, з якою ви стикаєтесь, а скоріше оптимізуєте параметри, які можуть вирішити проблему (отже, гіпер , тому що вони не є частиною оптимізаційної задачі, а швидше є "аддонами"). Щодо того, що я бачив, але я не маю посилання, це відношення є односпрямованим (на гіперпараметр не можуть впливати параметри, на які він впливає, отже, і гіпер ). Зазвичай вони вводяться в схемах регуляризації або метаоптимізації.

Наприклад, ваш параметр може вільно впливати на і щоб регулювати вартість регуляризації (але і не впливають на ). Таким чином, - гіперпараметр для і . Якби у вас був додатковий параметр впливає на , це був би гіперпараметр для і гіпергіперпараметр для і (але я ніколи не бачив цієї номенклатури, але я не відчував би, що було б неправильно, якби бачив її) . $\lambda$ $\mu$ $\sigma$ $\mu$ $\sigma$ $\lambda$ $\lambda$ $\mu$ $\sigma$ $\tau$ $\lambda$ $\lambda$ $\mu$ $\sigma$

Я вважав, що концепція гіперпараметра є дуже корисною для перехресної перевірки, оскільки вона нагадує вам про ієрархію параметрів, а також нагадує, що якщо ви все ще змінюєте (гіпер-) параметри, ви все ще перехрещуєтесь і не узагальнюєте, тому вам потрібно залишайтеся уважними щодо своїх висновків (щоб уникнути кругообігу).

— габоровий
джерело

7

Інші пояснення трохи розпливчасті; ось конкретніше пояснення, яке повинно його прояснити.

Гіперпараметри є параметрами моделі тільки , НЕ фізичного процесу , який моделюється. Ви вводите їх "штучно", щоб ваша модель "працювала" за наявності кінцевих даних та / або обмеженого часу обчислення . Якби у вас була нескінченна сила вимірювати чи обчислювати що-небудь, гіперпараметри більше не існували б у вашій моделі, оскільки вони не описували б жодного фізичного аспекту фактичної системи.

З іншого боку, регулярні параметри - це ті, що описують фізичну систему, і не просто моделюють артефакти.

— Мехрдад
джерело

6

Це не точно визначений термін, тому я продовжую і дам вам ще одне визначення, яке, здається, відповідає загальному використанню.

Гіперпараметр - це величина, оцінена в алгоритмі машинного навчання, яка не бере участі у функціональній формі остаточної функції прогнозування.

Let me unwind that with an example, ridge regression. In ridge regression we solve the following optimization problem:

β^{*} (λ) = {argmin}_{β} ((y - X β)^{t} (y - X β) + λ β^{t} β)

$\beta^*(\lambda) = \text{argmin}_{\beta} \left( (y - X\beta)^t (y - X\beta) + \lambda \beta^t \beta \right)$

β^{*} = {argmin}_{λ} (y^{'} - X^{'} β (λ))^{t} (y^{'} - X^{'} β (λ))

$\beta^* = \text{argmin}_{\lambda} (y' - X'\beta(\lambda))^t (y' - X'\beta(\lambda))$

In the first problem $X, y$ is the training data, and in the second $X', y'$ is a hold out data set. The final functional form of the model, which I called above the predictive function is

f (X) = X β^{*}

$f(X) = X \beta^*$

in which $\lambda$ does not appear. This makes $\beta$ a parameter vector, and $\lambda$ a hyper parameter.

— Matthew Drury
джерело

3

As precisely pointed out by @jaradniemi, one use of the term hyperparameter comes from hierarchical or multilevel modeling, where you have a cascade of statistical models, one built over/under the others, using usually conditional probability statements.

But the same terminology arises in other contexts with different meanings as well. For instance, I have seen the term hyperparameter been used to refer to the parameters of the simulation (running length, number of independent replications, number of interacting particles in each replication etc.) of a stochastic model, which did not result from a multilevel modeling.

— Marcelo Ventura
джерело

1

FWIW I would typically refer to running length, number of interacting particles, etc. as tuning parameters.

— jaradniemi

Я згоден. Мені це здається більш адекватним вибором, ніж гіперпараметри. Тим не менше, для інших, в інших галузях знань, це все ще звучало досить розумно.

— Марсело Вентура