Я думаю, що ви в основному зачепили цвях по голові в питанні, але я побачу, чи зможу я все-таки додати щось. Я збираюся відповісти на це трохи крутим способом ...
Поле надійної статистики вивчає питання, що робити, коли гауссова припущення не вдається (в тому сенсі, що є люди, що переживають люди):
Часто передбачається, що помилки даних зазвичай розподіляються, принаймні, приблизно, або що на центральну межу теореми можна покластися для отримання нормально розподілених оцінок. На жаль, коли в даних є інші люди, класичні методи часто мають дуже низьку ефективність
Вони були застосовані і в ML, наприклад, у Mika el al. (2001) Математичний підхід до програмування до алгоритму ядра Фішера , вони описують, як надійні втрати Хубера можна використовувати з KDFA (разом з іншими функціями втрат). Звичайно, це втрата від класифікації, але KFDA тісно пов'язана з машиною релевантності вектора (див. Розділ 4 статті Міка).
Як випливає з питання, існує тісний зв’язок між функціями втрат та баєсовими моделями помилок (див. Тут для обговорення).
Однак, як правило, випадок, що як тільки ви почнете включати "фанкі" функції втрат, оптимізація стає жорсткою (зауважте, що це відбувається і в байєсівському світі). Тому у багатьох випадках люди вдаються до стандартних функцій втрат, які легко оптимізувати, а замість цього проводять додаткову попередню обробку, щоб забезпечити відповідність даних моделі.
Іншим моментом, який ви згадуєте, є те, що CLT застосовується лише до зразків, які є IID. Це правда, але тоді припущення (та супровідний аналіз) більшості алгоритмів однакові. Коли ви починаєте переглядати дані, що не належать до IID, речі стають набагато складнішими. Одним із прикладів є тимчасова залежність, і в такому випадку типовим підходом є припущення, що залежність охоплює лише певне вікно, і тому зразки можна вважати приблизно IID поза цим вікном (див., Наприклад, цей блискучий, але жорсткий папір Chromatic PAC) -Бейнс-межі для даних, що не належать до IID: додатки до ранжування та стаціонарні процеси β-змішування ), після яких можна застосувати звичайний аналіз.
Так, так, це зводиться частково до зручності, а частково тому, що в реальному світі більшість помилок виглядають (приблизно) гауссовими. Звичайно, завжди слід бути обережними, дивлячись на нову проблему, щоб переконатися, що припущення не порушуються.