Запитання з тегом «large-data»

"Великі дані" стосуються ситуацій, коли кількість спостережень (точок даних) настільки велика, що потребує змін у тому, як аналітик даних думає чи проводить аналіз. (Не плутати з «високою розмірністю».)

1
Як обчислити міру точності на основі RMSE? Мій великий набір даних зазвичай розподіляється?
У мене є кілька наборів даних в порядку тисячі балів. Значення у кожному наборі даних - X, Y, Z, що стосуються координати в просторі. Значення Z являє собою різницю висот у парі координат (x, y). Зазвичай в моєму полі ГІС на похибку висоти посилається в RMSE шляхом віднімання точки земної …

3
Як швидко вибрати важливі змінні з дуже великого набору даних?
У мене є набір даних з близько 2000 бінарних змінних / 200 000 рядків, і я намагаюся передбачити одну бінарну залежну змінну. Моя головна мета на цьому етапі - не отримання точності прогнозування, а скоріше визначити, яка з цих змінних є важливими провісниками. Я хотів би знизити кількість змінних у …

3
Простір-ефективна кластеризація
Більшість алгоритмів кластеризації, які я бачив, починаються зі створення відстані "кожен до кожного" серед усіх точок, що стає проблематичним для великих наборів даних. Чи є такий, хто цього не робить? Або це в якомусь частковому / наближеному / поетапному підході? Який алгоритм / реалізація кластеризації займає менше місця (O (n …

1
Чи можу я виконати вибірку великого набору даних під час кожної ітерації MCMC?
Проблема: Я хочу виконати вибірку Gibbs, щоб зробити деякий задній для великого набору даних. На жаль, моя модель не дуже проста, і тому вибірки є надто повільними. Я б розглядав варіативні чи паралельні підходи, але перш ніж піти так далеко ... Запитання: Я хотів би знати, чи можу я випадково …
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.