Я шукаю зробити k-означає кластеризацію на наборі 10-мірних точок. Улов: є 10 ^ 10 балів .
Я шукаю лише центр та розмір найбільших кластерів (скажімо, від 10 до 100 кластерів); Мене не цікавить, в якому кластері закінчується кожна точка. Використання k-засобів конкретно не важливо; Я просто шукаю подібний ефект, будь-який приблизний k-засіб або пов'язаний з ним алгоритм був би чудовим (minibatch-SGD означає, ...). Оскільки GMM є в певному сенсі тією ж проблемою, що і k-засоби, також цікаво робити дані GMM на однакових даних.
У такому масштабі підсистема даних, ймовірно, не суттєво змінить результат: шанси на пошук одних і тих же топ-10 кластерів за допомогою 1/10000-ї вибірки даних дуже хороші. Але навіть тоді це проблема 10 ^ 6 балів, яка знаходиться на / поза межею простежуваної.