Запитання з тегом «hyperparameter»

Параметр, який не є суто для статистичної моделі (або процесу генерації даних), а є параметром для статистичного методу. Це може бути параметром для: сімейства попередніх розподілів, згладжування, штрафу методів регуляризації або алгоритму оптимізації.

1
Вибір відповідного розміру міні-партії для стохастичного градієнтного спуску (SGD)
Чи є література, яка вивчає вибір розміру міні-партії при виконанні стохастичного градієнтного спуску? На мій досвід, це здається, що це емпіричний вибір, який зазвичай виявляється шляхом перехресної перевірки або з використанням різних правил. Це гарна ідея повільно збільшувати розмір міні-партії, оскільки зменшується помилка перевірки? Які наслідки це матиме на помилку …

1
Гіперприорна щільність для ієрархічної моделі Гамма-Пуассона
В ієрархічній моделі даних де y ∼ Пуассон ( λ ) λ ∼ Гамма ( α , β ) на практиці типово вибирати значення ( α , β ), такі, що середнє значення та дисперсія гамма-розподілу приблизно збігаються з середнє значення та відмінність даних y (наприклад, Клейтон та Калдор, 1987, …

4
Чому ми просто не вивчимо гіпер параметри?
Я реалізовував досить популярний документ " ПОЯСНЕННЯ ТА ПІДПРИЄМСТВО ДОСЛІДНИХ ПРИКЛАДІВ ", і в роботі він тренує протиборчу цільову функцію J '' (θ) = αJ (θ) + (1 - α) J '(θ). Це трактує α як гіперпараметр. α може бути 0,1, 0,2, 0,3 і т.д. Незалежно від цього конкретного документу, …

1
Співвідношення між швидкістю навчання та кількістю прихованих шарів?
Чи є якесь правило між глибиною нейронної мережі та швидкістю навчання? Я помічав, що чим глибше мережа, тим нижчим повинен бути рівень навчання. Якщо це правильно, чому це так?

2
Вкладена перехресна перевірка - чим вона відрізняється від вибору моделі через kfold CV на навчальному наборі?
Я часто бачу людей, які говорять про перехресну перевірку 5x2 як про особливий випадок вкладеної перехресної перевірки . Я припускаю, що перше число (тут: 5) стосується кількості складок у внутрішній петлі, а друге число (тут: 2) стосується кількості складок у зовнішній петлі? Отже, чим це відрізняється від "традиційного" підбору моделі …

1
Чому в лінійній регресії регуляризація також покарає значення параметрів?
В даний час я вивчаю регресію хребта, і я трохи розгубився щодо покарання більш складних моделей (або визначення більш складної моделі). Як я розумію, складність моделі не обов'язково співвідноситься з порядком поліномів. Тому:2 + 3 + 4х2+ 5х3+ 6х42+3+4х2+5х3+6х4 2 + 3+ 4x^2 + 5x^3 + 6x^4є більш складною моделлю, …

1
Чому інформація про дані перевірки просочується, якщо я оцінюю ефективність моделі на даних валідації під час налаштування гіперпараметрів?
У Глубокому навчанні з Python Франсуа Шолле сказано: Як результат, налаштування конфігурації моделі на основі її продуктивності на наборі валідації може швидко призвести до надмірного пристосування до набору перевірок, навіть якщо ваша модель ніколи безпосередньо на ній не навчається. Центральним у цьому явищі є поняття протікання інформації. Кожен раз, коли …
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.