Повністю з'єднані (принаймні шар до шару з більш ніж двома прихованими шарами) backprop мережі є універсальними учнями. На жаль, вони часто повільно навчаються і мають тенденцію до надмірної форми або мають незручні узагальнення.
З глузду з цими мережами я помітив, що обрізка деяких країв (так що їх вага дорівнює нулю і неможливо змінити), як правило, дозволяє мережам вчитися швидше і узагальнювати краще. Чи є для цього причина? Це лише через зменшення розмірності простору пошуку ваг, чи є більш тонка причина?
Також, чи краще узагальнення є артефактом «природних» проблем, на які я дивлюся?