Використовуйте коефіцієнт кореляції Пірсона як оптимізацію в машинному навчанні


12

У машинному навчанні (для проблем з регресією) я часто бачу середню квадратичну помилку (MSE) або середню абсолютну помилку (MAE), яка використовується як функція помилок для мінімізації (плюс термін регуляризації). Мені цікаво, чи є ситуації, коли використання коефіцієнта кореляції було б більш доцільним? якщо така ситуація існує, то:

  1. За яких ситуацій коефіцієнт кореляції є кращим показником порівняно з MSE / MAE?
  2. Чи в цих ситуаціях MSE / MAE все ще є хорошою функцією використання проксі-сервера?
  3. Чи можливий максимальний коефіцієнт кореляції? Це стабільна цільова функція для використання?

Я не міг знайти випадків, коли коефіцієнт кореляції використовується безпосередньо як цільова функція в оптимізації. Буду вдячний, якщо люди можуть вказувати мені на інформацію в цій галузі.

Відповіді:


7

Максимізація кореляції корисна, коли вихід дуже шумний. Іншими словами, зв’язок між входами та виходами дуже слабкий. У такому випадку мінімізація MSE, як правило, робить висновок близьким до нуля, щоб помилка прогнозування була такою ж, як дисперсія тренувального результату.

Безпосередньо використання кореляції як цільової функції можливо для наближення градієнта (просто змінити її до мінімізації мінус кореляції). Однак я не знаю, як оптимізувати це за допомогою SGD-підходу, оскільки функція витрат та градієнт передбачають результати всіх навчальних зразків.

Інший спосіб максимальної кореляції - це мінімізація MSE з обмеженням вихідної дисперсії такою ж, як і вихідна дисперсія. Однак обмеження передбачає також всі результати, тому немає можливості (на мою думку) скористатися оптимізатором SGD.

EDIT: У разі, якщо верхній шар нейронної мережі є лінійним вихідним шаром, ми можемо мінімізувати MSE, а потім відрегулювати ваги та зміщення у лінійному шарі для максимального співвідношення. Налаштування може бути виконано аналогічно CCA ( https://en.wikipedia.org/wiki/Canonical_analysis ).


1

Ми використовуємо кореляцію Пірсона в наших дослідженнях, і це добре працює. У нашому випадку це досить стабільно. Оскільки це інваріантний показник перекладу та масштабу, він корисний лише у тому випадку, якщо ви хочете передбачити форму, а не точні значення. Отже, це корисно, якщо ви не знаєте, чи є ваша мета в просторі рішення вашої моделі, і вас цікавить лише форма. Навпаки, MSE зменшує усереднену відстань між прогнозуванням та цілями, тому намагається максимально підходити до даних. Це, мабуть, причина, чому MSE використовується ширше, тому що вас зазвичай цікавить прогнозування точних значень. Якщо мінімізувати MSE, то кореляція посилиться.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.