Я читав, що алгоритм k-означає сходиться лише до локального мінімуму, а не до глобального мінімуму. Чому це? Я логічно можу подумати про те, як ініціалізація могла б вплинути на остаточну кластеризацію, і існує можливість субоптимальної кластеризації, але я не знайшов нічого, що це математично доведе.
Крім того, чому k - означає ітераційний процес? Чи не можемо ми просто частково диференціювати цільову функцію wrt до центроїдів, прирівняти її до нуля, щоб знайти центроїди, які мінімізують цю функцію? Чому нам потрібно використовувати градієнтний спуск, щоб досягти мінімального крок за кроком?