Поводження з великими наборами даних у навчальних посібниках, кращих практиках тощо


11

Я R noob, який зобов’язаний робити різного роду аналіз на великих наборах даних у Р. Тому, переглядаючи цей сайт та в інших місцях, мені здалося, що тут багато езотеричних та менш відомих питань - наприклад який пакет використовувати, коли, які перетворення (не) застосовуються до даних тощо.

Мені просто цікаво, чи є книга / підручник / посібник, який демістифікує все це і подає інформацію систематично? Я вважаю за краще це робити, а не оглядатись та збирати інформацію з різних джерел в Інтернеті.

Заздалегідь спасибі.



1
Це може допомогти поділитися кількома прикладами того, який аналіз ви хочете зробити та як виглядають ваші дані. Прості статистичні дані, такі як засоби чи складні регресії? 200 змінних у тисячу рядків, або 4 змінні та 20 мільйонів рядків?
Павло Гурлейюк

1
Якщо у вас справді "великі" набори даних, можливо, ви повинні ознайомитися з реляційними базами даних. Початковою точкою для цього може стати посібник «Імпорт / експорт даних R», який постачається разом з RNB, посібник також доступний через розділ «Посібники» веб-сайту R

1
По-перше, важливе питання: Що ви маєте на увазі під великим рахунком, і що ви хочете робити?
Фоміт

Відповіді:


3

Ось кілька публікацій у блозі, які я робив на цю тему великих наборів даних з Р. Є пара пакетів, таких як ff та bigmemory, які використовують заміну файлів та розподіл пам'яті. Кілька інших пакетів використовують підключення до баз даних, таких як sqldf, RMySQL та RSQLite.

R Посилання на обробку великих даних

Логістична регресія великих даних в R з ODBC

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.