Я спробую відповісти на ваші запитання, але перш ніж я хотів би зазначити, що використання терміна "великий набір даних" вводить в оману, оскільки "великий" є відносною концепцією. Ви повинні надати більше деталей. Якщо ви маєте справу з даними про ставки , то цей факт, швидше за все, вплине на вибір бажаних інструментів , підходів та алгоритмів для аналізу ваших даних . Я сподіваюся, що наступні мої думки щодо аналізу даних стосуються ваших підзапитів. Зверніть увагу, що нумерація моїх балів не відповідає нумерації ваших підзапитів. Однак я вважаю, що це краще відображає загальний робочий процес аналізу даних , принаймні, як я це розумію.
1) По-перше, я думаю, що вам потрібно мати хоча б якусь концептуальну модель на увазі (або, краще, на папері). Ця модель повинна керуватись вами в аналітичному аналізі даних (EDA) . Наявність залежної змінної (DV) в моделі означає, що на фазі машинного навчання (ML) пізніше в аналізі ви будете мати справу з так званими контрольованими ML, на відміну від непідконтрольних ML за відсутності ідентифікованого DV.
2) По-друге, ЗНО - важлива частина. IMHO, EDA повинні включати кілька ітерацій створення описової статистики та візуалізації даних , коли ви уточнюєте своє розуміння даних. Ця фаза не тільки дасть вам корисну інформацію про ваші набори даних, але й підживить ваш наступний важливий етап - очищення та трансформація даних . Просто викидання ваших необроблених даних у статистичний пакет програмного забезпечення не дасть багато - для будь-якого достовірного статистичного аналізу дані повинні бути чистими, правильними та послідовними . Це часто є найбільш трудомісткою, але абсолютно необхідною частиною. Детальніше з цієї теми читайте ці приємні статті:http://vita.had.co.nz/papers/tidy-data.pdf (автор Hadley Wickham) та http://cran.r-project.org/doc/contrib/de_Jonge+van_der_Loo-Introduction_to_data_cleaning_with_R.pdf (автор Едвін де Йонге та Марк ван дер Ло).
3) Тепер, як ви сподіваєтесь, що зробите з EDA , а також з очищенням та трансформацією даних, ви готові розпочати ще кілька етапів, пов'язаних із статистикою. Однією з таких фаз є дослідницький факторний аналіз (EFA) , який дозволить вам отримати базову структуру ваших даних. Для наборів даних з великою кількістю змінних позитивним побічним ефектом EFA є зменшення розмірності . І, хоча в цьому сенсі EFA схожий на аналіз основних компонентів (PCA)та інші підходи до зменшення розмірності, я вважаю, що EFA важливіше, оскільки дозволяє уточнити вашу концептуальну модель явищ, які ваші дані "описують", таким чином, має сенс для ваших наборів даних. Звичайно, крім EFA, ви можете / повинні виконувати регресійний аналіз , а також застосовувати методи машинного навчання , виходячи з ваших висновків на попередніх етапах.
Нарешті, примітка про програмні засоби . На мою думку, сучасний стан програмних пакетів статистики перебуває у такій точці, що практично будь-які основні програмні пакети мають порівнянні пропозиції. Якщо ви навчаєтесь чи працюєте в організації, яка має певну політику та переваги щодо програмних засобів, то ви їх обмежуєте . Однак, якщо це не так, я б щиро рекомендував статистичне програмне забезпечення з відкритим кодом , засноване на вашому комфорті з його специфічною мовою програмування , кривою навчання та вашими перспективами кар’єри . Моя поточна платформа вибору - R Project, яка пропонує зріле, потужне, гнучко, розгорнене та відкрите статистичне програмне забезпечення, а також чудову екосистему пакунків, експертів та ентузіастів. Інші приємні варіанти включають Python , Julia та специфічне програмне забезпечення з відкритим кодом для обробки великих даних , таких як Hadoop , Spark , бази даних NoSQL , WEKA . Щоб отримати додаткові приклади програмного забезпечення з відкритим кодом для майнінгу даних , що включає загальне та специфічне статистичне та програмне забезпечення для ML, див. Цей розділ сторінки Вікіпедії: http://en.wikipedia.org/wiki/Data_mining#Free_open-source_data_mining_software_and_applications .
ОНОВЛЕННЯ: Забув згадати про Rattle ( http://rattle.togaware.com ), який також є дуже популярним програмним забезпеченням з відкритим кодом, орієнтованим на графічний інтерфейс GUI для пошуку даних.