Чи безглуздо використовувати алгоритми оптимізації на основі градієнта, якщо ви можете надати лише числовий градієнт? Якщо ні, то навіщо в першу чергу надавати числовий градієнт, якщо тривіально виконати скінчену диференціацію для самої бібліотеки оптимізації?
[EDIT]
Просто для уточнення, моє запитання справді є в більш загальному сенсі, ніж конкретна заявка. Хоча в моїй області застосування трапляється оптимізація ймовірності в різних статистичних рамках.
Моє питання з автоматичною диференціацією полягає в тому, що завжди здається, що це є улов. Або бібліотека AD не може поширюватись на зовнішні дзвінки з бібліотеки (наприклад, BLAS), або вам доведеться переробляти робочий процес настільки різко, що це справляє біль ... особливо якщо ви працюєте з чутливими мовами типу. Мої проблеми з AD - це окрема тема. Але я хочу вірити!
Я думаю, мені потрібно краще сформулювати своє питання, але я роблю його погано. Якщо у вас є можливість використовувати алгоритм оптимізації без похідних або алгоритм оптимізації на основі похідних із застереженням, що я можу дати йому лише числовий градієнт, який у середньому буде кращим?