Нещодавно почавши навчати себе машинного навчання та аналізу даних, я потрапляю в цегляну стіну щодо необхідності створення та запиту великих наборів даних. Я хотів би взяти дані, які я зібрав у своєму професійному та особистому житті, та проаналізувати їх, але я не впевнений у найкращому способі зробити наступне:
Як я повинен зберігати ці дані? Excel? SQL? ??
Який хороший спосіб для початківця почати намагатися аналізувати ці дані? Я професійний комп'ютерний програміст, тому складність полягає не в написанні програм, а більш-менш специфічна для області аналізу даних.
EDIT: Вибачте за мою невизначеність, коли ви вперше починаєте дізнаватися про щось, що важко знати, чого ви не знаєте, так? ;)
Сказавши це, моя мета - застосувати це до двох основних тем:
Показники програмного забезпечення команди (подумайте про швидку швидкість, кількісну оцінку ризику, ймовірність успішно виконаної ітерації з урахуванням х кількості точок історії)
Машинне навчання (колишні винятки з системи сталися в заданому наборі модулів, яка ймовірність того, що модуль викине виняток у поле, скільки це буде коштувати, що дані можуть сказати мені про ключові модулі для покращення, які отримають мені найкращий удар для мого долара, передбачте, яку частину системи користувач захоче використовувати далі, щоб почати завантажувати дані тощо).