Зараз я працюю науковцем даних в роздрібній компанії (моя перша робота в якості DS, тому це питання може бути результатом мого браку досвіду). Вони мають величезний відставання дійсно важливих проектів з наукових даних, які мали б великий позитивний вплив у разі їх реалізації. Але.
Трубопроводи даних не існують у компанії, стандартна процедура - вони передають мені гігабайти TXT-файлів, коли мені потрібна якась інформація. Розгляньте ці файли як табличні журнали транзакцій, що зберігаються в таємних позначеннях та структурі. Жодна інформація не міститься в одному єдиному джерелі даних, і вони не можуть надати мені доступ до їх бази даних ERP з "міркувань безпеки".
Початковий аналіз даних для найпростішого проекту вимагає жорстокої, виснажливої суперечки. Більше 80% часу, витраченого на проект, я намагаюся розібрати ці файли та перехрестити джерела даних , щоб створити життєздатні набори даних. Це не проблема просто обробляти відсутні дані або попередньо їх обробляти, це стосується роботи, необхідної для побудови даних, з якими можна обробляти в першу чергу ( вирішується за допомогою dba або інженерії даних, а не науки про дані? ).
1) Видається, що більшість робіт взагалі не пов'язані з наукою про дані. Це точно?
2) Я знаю, що це не компанія, що керується даними, яка має відділ інженерії даних високого рівня, але, на мою думку, для досягнення стійкого майбутнього проектів з наукових даних необхідні мінімальні рівні доступності даних . Я помиляюся?
3) Чи поширений такий тип налаштування для компанії з серйозними потребами в наукових даних?