На жаль, відповідь, прийнята на даний момент від @Sycorax, хоча й детальна, невірна.
Насправді, найкращий приклад регресу через категоричну крос-ентропію - Wavenet - був реалізований у TensorFlow .
Принцип полягає в тому, що ви дискретизуєте свій вихідний простір, і тоді ваша модель лише передбачить відповідний бін; див. Розділ 2.2 статті для прикладу в області звукового моделювання. Тож, якщо технічно модель здійснює класифікацію, можлива вирішена задача - регресія.
Очевидним недоліком є те, що ви втрачаєте вихідну роздільну здатність. Однак це може не бути проблемою (принаймні, я думаю, що штучний помічник Google говорив дуже людським голосом ), або ви можете пограти з деякою постільною обробкою, наприклад, інтерполяцією між найбільш вірогідним біном та двома сусідами.
З іншого боку, такий підхід робить модель набагато потужнішою порівняно зі звичайним однолінійним виведенням, тобто дозволяє висловити багатомодальні прогнози або оцінити її впевненість. Зауважте, що останнє може бути природно досягнуто іншими способами, наприклад, маючи явний дисперсійний вихід (журналу), як у варіаційних автоінкодерах.
У будь-якому випадку, цей підхід не підходить до масштабного виводу, оскільки тоді розмір вихідного шару зростає експоненціально, що робить його як обчислювальним, так і моделюючим питанням.