Я не маю досвіду в галузі видобутку даних або великих даних, тому хотілося б почути, як ви поділилися певним досвідом.
Чи реально люди керують k-засобами, PAM, CLARA тощо на дійсно великому наборі даних? Або вони просто випадковим чином вибирають з нього зразок? Якщо вони просто беруть вибірку набору даних, чи був би результат надійним, якщо набір даних зазвичай не розподіляється?
Чи можемо ми в практичних ситуаціях під час виконання цих алгоритмів сказати, скільки ітерацій зазвичай триватиме до зближення? Або кількість ітерацій завжди зростає з розміром даних?
Я запитую це, тому що я думаю розробити підхід до припинення ітеративних алгоритмів до конвергенції, але результати все ще прийнятні. Я думаю, що варто спробувати, якщо кількість повторень, скажімо, більше 1000, так що ми можемо заощадити деякі обчислювальні витрати та час. Як ти гадаєш?
number of iterations always grow with the data size
Не обов'язково.