Статистика та великі дані hyperparameter

1

Вибір відповідного розміру міні-партії для стохастичного градієнтного спуску (SGD)

Чи є література, яка вивчає вибір розміру міні-партії при виконанні стохастичного градієнтного спуску? На мій досвід, це здається, що це емпіричний вибір, який зазвичай виявляється шляхом перехресної перевірки або з використанням різних правил. Це гарна ідея повільно збільшувати розмір міні-партії, оскільки зменшується помилка перевірки? Які наслідки це матиме на помилку …

13 machine-learning gradient-descent hyperparameter deep-learning

1

Гіперприорна щільність для ієрархічної моделі Гамма-Пуассона

В ієрархічній моделі даних де y ∼ Пуассон ( λ ) λ ∼ Гамма ( α , β ) на практиці типово вибирати значення ( α , β ), такі, що середнє значення та дисперсія гамма-розподілу приблизно збігаються з середнє значення та відмінність даних y (наприклад, Клейтон та Калдор, 1987, …

11 poisson-distribution gamma-distribution hierarchical-bayesian hyperparameter

4

Чому ми просто не вивчимо гіпер параметри?

Я реалізовував досить популярний документ " ПОЯСНЕННЯ ТА ПІДПРИЄМСТВО ДОСЛІДНИХ ПРИКЛАДІВ ", і в роботі він тренує протиборчу цільову функцію J '' (θ) = αJ (θ) + (1 - α) J '(θ). Це трактує α як гіперпараметр. α може бути 0,1, 0,2, 0,3 і т.д. Незалежно від цього конкретного документу, …

11 machine-learning neural-networks deep-learning hyperparameter

1

Співвідношення між швидкістю навчання та кількістю прихованих шарів?

Чи є якесь правило між глибиною нейронної мережі та швидкістю навчання? Я помічав, що чим глибше мережа, тим нижчим повинен бути рівень навчання. Якщо це правильно, чому це так?

10 neural-networks deep-learning hyperparameter rule-of-thumb

2

Вкладена перехресна перевірка - чим вона відрізняється від вибору моделі через kfold CV на навчальному наборі?

Я часто бачу людей, які говорять про перехресну перевірку 5x2 як про особливий випадок вкладеної перехресної перевірки . Я припускаю, що перше число (тут: 5) стосується кількості складок у внутрішній петлі, а друге число (тут: 2) стосується кількості складок у зовнішній петлі? Отже, чим це відрізняється від "традиційного" підбору моделі …

10 machine-learning cross-validation hyperparameter

1

Чому в лінійній регресії регуляризація також покарає значення параметрів?

В даний час я вивчаю регресію хребта, і я трохи розгубився щодо покарання більш складних моделей (або визначення більш складної моделі). Як я розумію, складність моделі не обов'язково співвідноситься з порядком поліномів. Тому:2 + 3 + 4х2+ 5х3+ 6х42+3+4х2+5х3+6х4 2 + 3+ 4x^2 + 5x^3 + 6x^4є більш складною моделлю, …

9 regression regularization hyperparameter

1

Чому інформація про дані перевірки просочується, якщо я оцінюю ефективність моделі на даних валідації під час налаштування гіперпараметрів?

У Глубокому навчанні з Python Франсуа Шолле сказано: Як результат, налаштування конфігурації моделі на основі її продуктивності на наборі валідації може швидко призвести до надмірного пристосування до набору перевірок, навіть якщо ваша модель ніколи безпосередньо на ній не навчається. Центральним у цьому явищі є поняття протікання інформації. Кожен раз, коли …

9 neural-networks cross-validation hyperparameter

Запитання з тегом «hyperparameter»