Що в назві: гіперпараметри


19

Отже, у нормальному розподілі маємо два параметри: середнє та дисперсію σ 2 . У книзі Розпізнавання візерунків та машинне навчання несподівано з’являється гіперпараметр λ в умовах регуляризації функції помилок.μσ2λ

Що таке гіперпараметри? Чому їх називають такими? І чим вони інтуїтивно відрізняються від параметрів загалом?


3
Я особисто думаю, що це епідемія людей, які переживають гіпертонію. Гіпер це, гіпер що. Гіперсфера - це сфера, d @ manit, перестаньте бути такою гіпер, лише тому, що розмірність перевищує 3. Гіперпараметр - це параметр, d @ mnit, перестаньте отримувати гіпер просто тому, що їх у вас є кілька, і вам якось здається, що вам здається, що вам потрібно вказати ієрархічний рівень чи щось таке. У будь-якому випадку, якщо у вас є проблема оптимізації, чітко пропишіть, які параметри оптимізуються, і які обмеження (якщо це багаторівнева оптимізація, випишіть це). Я сподіваюся, що в цьому коментарі я не став надто гіпертурбований.
Марк Л. Стоун

2
Я завжди використовував "гіперсферу", щоб означати "співмірність однієї сфери", так що, принаймні, з математики, здається, щось означає. Або принаймні, коли я говорю про математику. Я зараз заспокійся.
Меттью Друрі

Відповіді:


18

Термін гіперпараметр досить розпливчастий. Я буду використовувати його для позначення параметра, який знаходиться на більш високому рівні ієрархії, ніж інші параметри. Для прикладу розглянемо регресійну модель з відомою дисперсією (1 у цьому випадку)

yN(Xβ,I)

а потім пріоритет за параметрами, наприклад

βN(0,λI)

Тут визначає розподіл β, а β визначає розподіл для y . Коли я хочу просто посилатися на β, я можу назвати його параметром, а коли я хочу просто посилатися на λ , я можу називати його гіперпараметром.λββyβλ

Іменування ускладнюється, коли параметри відображаються на кількох рівнях або коли є більше ієрархічних рівнів (і ви не хочете використовувати термін гіпергіперпараметри). Найкраще, якщо автор уточнить, що саме мається на увазі, коли вони використовують термін гіперпараметр або параметр для цього питання.


Це приємне пояснення. Я зараз уявляю це як "склад функцій-ish". Щоб перекласти те, що ви вводите в символи, звичайно розподіляється із середнім X β , але b e t a у свою чергу, як правило, розподіляється так і так. ДякуюyXβbeta
cgo

10

Гіперпараметр - це просто параметр, який повністю чи частково впливає на інші параметри. Вони не вирішують безпосередньо оптимізаційну проблему, з якою ви стикаєтесь, а скоріше оптимізуєте параметри, які можуть вирішити проблему (отже, гіпер , тому що вони не є частиною оптимізаційної задачі, а швидше є "аддонами"). Щодо того, що я бачив, але я не маю посилання, це відношення є односпрямованим (на гіперпараметр не можуть впливати параметри, на які він впливає, отже, і гіпер ). Зазвичай вони вводяться в схемах регуляризації або метаоптимізації.

Наприклад, ваш параметр може вільно впливати на μ і σ, щоб регулювати вартість регуляризації (але μ і σ не впливають на λ ). Таким чином, λ - гіперпараметр для μ і σ . Якби у вас був додатковий параметр τ, що впливає на λ , це був би гіперпараметр для λ і гіпергіперпараметр для μ і σ (але я ніколи не бачив цієї номенклатури, але я не відчував би, що було б неправильно, якби бачив її) .λμσμσλλμστλλμσ

Я вважав, що концепція гіперпараметра є дуже корисною для перехресної перевірки, оскільки вона нагадує вам про ієрархію параметрів, а також нагадує, що якщо ви все ще змінюєте (гіпер-) параметри, ви все ще перехрещуєтесь і не узагальнюєте, тому вам потрібно залишайтеся уважними щодо своїх висновків (щоб уникнути кругообігу).


7

Інші пояснення трохи розпливчасті; ось конкретніше пояснення, яке повинно його прояснити.

Гіперпараметри є параметрами моделі тільки , НЕ фізичного процесу , який моделюється. Ви вводите їх "штучно", щоб ваша модель "працювала" за наявності кінцевих даних та / або обмеженого часу обчислення . Якби у вас була нескінченна сила вимірювати чи обчислювати що-небудь, гіперпараметри більше не існували б у вашій моделі, оскільки вони не описували б жодного фізичного аспекту фактичної системи.

З іншого боку, регулярні параметри - це ті, що описують фізичну систему, і не просто моделюють артефакти.


6

Це не точно визначений термін, тому я продовжую і дам вам ще одне визначення, яке, здається, відповідає загальному використанню.

Гіперпараметр - це величина, оцінена в алгоритмі машинного навчання, яка не бере участі у функціональній формі остаточної функції прогнозування.

Let me unwind that with an example, ridge regression. In ridge regression we solve the following optimization problem:

β(λ)=argminβ((yXβ)t(yXβ)+λβtβ)
β=argminλ(yXβ(λ))t(yXβ(λ))

In the first problem X,y is the training data, and in the second X,y is a hold out data set. The final functional form of the model, which I called above the predictive function is

f(X)=Xβ

in which λ does not appear. This makes β a parameter vector, and λ a hyper parameter.


3

As precisely pointed out by @jaradniemi, one use of the term hyperparameter comes from hierarchical or multilevel modeling, where you have a cascade of statistical models, one built over/under the others, using usually conditional probability statements.

But the same terminology arises in other contexts with different meanings as well. For instance, I have seen the term hyperparameter been used to refer to the parameters of the simulation (running length, number of independent replications, number of interacting particles in each replication etc.) of a stochastic model, which did not result from a multilevel modeling.


1
FWIW I would typically refer to running length, number of interacting particles, etc. as tuning parameters.
jaradniemi

Я згоден. Мені це здається більш адекватним вибором, ніж гіперпараметри. Тим не менше, для інших, в інших галузях знань, це все ще звучало досить розумно.
Марсело Вентура
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.