Скільки поєднання даних - це робота вченого?

44

Зараз я працюю науковцем даних в роздрібній компанії (моя перша робота в якості DS, тому це питання може бути результатом мого браку досвіду). Вони мають величезний відставання дійсно важливих проектів з наукових даних, які мали б великий позитивний вплив у разі їх реалізації. Але.

Трубопроводи даних не існують у компанії, стандартна процедура - вони передають мені гігабайти TXT-файлів, коли мені потрібна якась інформація. Розгляньте ці файли як табличні журнали транзакцій, що зберігаються в таємних позначеннях та структурі. Жодна інформація не міститься в одному єдиному джерелі даних, і вони не можуть надати мені доступ до їх бази даних ERP з "міркувань безпеки".

Початковий аналіз даних для найпростішого проекту вимагає жорстокої, виснажливої суперечки. Більше 80% часу, витраченого на проект, я намагаюся розібрати ці файли та перехрестити джерела даних , щоб створити життєздатні набори даних. Це не проблема просто обробляти відсутні дані або попередньо їх обробляти, це стосується роботи, необхідної для побудови даних, з якими можна обробляти в першу чергу ( вирішується за допомогою dba або інженерії даних, а не науки про дані? ).

1) Видається, що більшість робіт взагалі не пов'язані з наукою про дані. Це точно?

2) Я знаю, що це не компанія, що керується даними, яка має відділ інженерії даних високого рівня, але, на мою думку, для досягнення стійкого майбутнього проектів з наукових даних необхідні мінімальні рівні доступності даних . Я помиляюся?

3) Чи поширений такий тип налаштування для компанії з серйозними потребами в наукових даних?

data-wrangling

— Віктор Валенте
джерело

Ви вказали, в якому форматі ви хочете отримати інформацію? І дайте їм інструкції, як вони можуть це зробити зі своїм ERP?

— jonnor

@jonnor Звичайно. Я працюю тут вже майже два роки, і з першого дня я пояснив, як ми могли б створити кращу платформу для доступу до даних. Однак є сильний опір змінити те, що компанія робить протягом 30 років.

— Віктор Валенте

13

Почніть відстежувати свої години та конвертуйте їх у вартість на те, скільки вони витрачаєте ваш час на перетворення TXT назад у придатний формат. Б'юсь об заклад, як тільки вони отримають цифру $, вони зможуть це зробити.

— Нельсон

Якщо це тягар для вашого часу, ви можете його передати в аутсорсинг.

— Саркома

Я вважаю заплутаним, що компанія найме Data Scientist і все ще буде стійкою до змін. Ви повинні показати їм кількість витраченого часу та небезпеку для збереження даних у довгі файли TXT без реального забезпечення безпеки

— Педро Анріке Монфорте

27

Схоже, більшість робіт взагалі не пов'язані з наукою про дані. Це точно?

Так
Я знаю, що це не керована даними компанія з відділом інженерії даних високого рівня, але, на мою думку, наука про дані вимагає мінімальних рівнів доступності даних. Я помиляюся?

Ви не помиляєтеся, але такі реалії реального життя.
Чи такий тип налаштування є спільним для компанії з серйозними потребами в наукових даних?

Так

З технічної точки зору вам потрібно вивчити рішення ETL, які можуть полегшити ваше життя. Іноді один інструмент може бути набагато швидшим, ніж інший, щоб прочитати певні дані. Наприклад, readxl R - це порядки величин швидше, ніж панди пітона при читанні файлів xlsx; ви можете використовувати R для імпорту файлів, а потім зберегти їх у зручному для Python форматі (паркет, SQL тощо). Я знаю, що ви не працюєте над файлами xlsx, і я поняття не маю, якщо ви використовуєте Python - це був лише приклад.

З практичної точки зору, дві речі:

Перш за все зрозумійте, що технічно можливо. У багатьох випадках люди, які говорять вам, знають, що це неграмотні люди, які турбуються з приводу ділових питань або дотримання правил, але не мають поняття, що таке і що неможливо з точки зору ІТ. Спробуйте поговорити з DBA або тим, хто керує інфраструктурою даних. Зрозумійте, що технічно можливо. ТОГО, тільки тоді, спробуйте знайти компроміс. Наприклад, вони не дадуть вам отримати доступ до їх системи, але я припускаю, що за нею є база даних? Можливо, вони можуть витягти дані в інші формати? Можливо, вони можуть витягти оператори SQL, які визначають типи даних тощо?
Ділові люди з більшою ймовірністю допоможуть вам, якщо ви зможете зробити так, щоб це було в інтересах ЇХ. Якщо вони навіть не вірять у те, що ти робиш, удача ...

— PythonGuest
джерело

2

Відмінний момент щодо пошуку / комплектування рішення ETL. Просто потрібно додати: виберіть потрібну вам установку та зможете легко читати / налагоджувати. На ранніх етапах автоматизації завдань це навіть важливіше, ніж пошук найшвидшого інструменту збору даних. Якщо це конфігурація тексту, вона, швидше за все, часто працюватиме впродовж ночі, і ваше вільне володіння інструментом / рамкою / мовою може зробити різницю між пробудженням добрих даних або тим, що вам доведеться починати заново. Лише один перехід може знищити будь-які переваги ефективності. Краще бути стійким з меншою кількістю помилок, ніж йти швидко і спотикатися.

— Джейсон

2

Правда. Але, також, не переоцінюйте. Вибирайте свої пріоритети з розумом. Якщо імпорт даних одноразовий, не витрачайте днів на пошуки, як зменшити час імпорту з 2 годин до 30 хвилин. І т.д.

— PythonGuest

39

Це така ситуація, що багато блогів, компаній та робіт визнають чимось реальним у багатьох випадках.

У цьому документі Data Wrangling for Big Data: виклики та можливості , є цитата про це

Дані вчені витрачають від 50 до 80 відсотків свого часу

збір та підготовка недобросовісних цифрових даних.

Крім того, ви можете прочитати джерело цієї цитати в цій статті з "Нью-Йорк Таймс", для науковців з великими даними, "Робота двірників" є ключовою перешкодою для розуміння

На жаль, реальний світ не такий, як Kaggle. Ви не отримаєте файл CSV або Excel, який ви можете просто запустити "Дані дослідження" з невеликим очищенням. Дані потрібно знайти у форматі, який не відповідає вашим потребам.

Що ви можете зробити, це максимально використовувати старі дані та спробувати адаптувати зберігання нових даних у процесі, який буде легше вам (або майбутньому колезі) працювати.

— Тасос
джерело

Стаття Forbes, яка претендує на ту саму 80% .

— Джессі Амано

4

Forbes ніде не слід згадувати разом зі словами "наука про дані".

— поклонилося

50-80% на основі (цитата) "інтерв'ю та експертних оцінок"

— oW_

3

@gented Opinion коментар щодо опитування, заснованого на думці, у статті, що базується на думці, розміщеній на основі відповіді на запитання, засноване на думці Хто б міг подумати, що ви знайдете це в SE Data Science?

— Keeta

25

Схоже, більшість робіт взагалі не пов'язані з наукою про дані. Це точно?

Це реальність будь-якого проекту з наукових даних. Google насправді виміряв це та опублікував документ "Прихований технічний борг у системах машинного навчання" https://papers.nips.cc/paper/5656-hidden-technical-debt-in-machine-learning-systems.pdf

Результат статті відображає і мій досвід. Найбільше часу витрачається на отримання, очищення та обробку даних.

— Шаміт Верма
джерело

7

Схоже, більшість робіт взагалі не пов'язані з наукою про дані. Це точно?

Складування даних найбільш визначено в описі завдання Data Scientist. На якомусь рівні ви повинні зрозуміти процес генерування даних, щоб використовувати його для керування рішеннями. Звичайно, хтось, що спеціалізується на ETL, міг би зробити це швидше / ефективніше, але давання дампів даних не є рідкістю в реальному світі. Якщо вам не сподобався цей аспект науки про дані, можливо, буде можливість тісніше співпрацювати з ІТ-ресурсами, щоб отримати належну інформацію до складу, до якого ви маєте доступ. Крім того, ви можете знайти роботу, яка вже має дані в кращому порядку.
Я знаю, що це не керована даними компанія з відділом інженерії даних високого рівня, але, на мою думку, наука про дані вимагає мінімальних рівнів доступності даних. Я помиляюся?

Я думаю, що мінімальний рівень - це файли txt. Якщо у вас є доступ до даних за допомогою текстових файлів, ви повинні мати доступ до даних у базі даних (натисніть на це з начальством).
Чи такий тип налаштування є спільним для компанії з серйозними потребами в наукових даних?

Так. Ви дані НАУКИ; ти експерт. Це ваша робота - навчити інших щодо неефективності поточної структури даних та того, як ви можете допомогти. Дані, які не можна використовувати, нікому не допомагають. У вас є можливість покращити справи та сформувати майбутнє компанії.

— Підривник
джерело

6

Як ще один недавній починаючий в Data Science, я можу лише додати, що я не думаю, що ви досвід унікальний, моя команда, яка близько 10 років, очевидно, не зробила жодної DS протягом більше року (один невеликий проект, який займав 2 з команда). Це пов'язано з обіцянкою ефективного трубопроводу, над яким працювала команда, але все ще просто не доставляє дані. Мабуть, утримання в минулому було досить бідним, і постійно пообіцяють створити середовище MS Azure із святими граалами для майбутніх проектів DS.

Отже, щоб відповісти:

1) Так абсолютно точно

2) Ні, ви неправі, але отримати доступ до потрібних даних (якщо вони навіть існують) - це непростий бій.

3) Я впевнений, що там є компанії, які кращі за інших. Якщо ви не можете витримати це у своїй нинішній компанії, 2 роки - це пристойний проміжок часу, починайте шукати яскравіші речі (будьте уважні, як ви формулюєте бажання залишити свою поточну роботу, щось на кшталт "прагнення працювати з більш динамічною роботою команда "буде звучати краще, ніж" моя стара компанія не дасть мені даних ").

— Олівер Х'юстон
джерело

5

Якщо ви дивитесь на це з точки зору "це не моя робота, то чому я повинен це робити", то це досить поширена загальна проблема, не властива науці даних. Зрештою, ваша робота полягає в тому, щоб робити все, що вам каже начальник, але на практиці є мало підстав для того, щоб начальник був диктаторським щодо цього, і зазвичай їх можна переконати. Або принаймні вони дадуть вам щире пояснення, чому так має бути. Але що стосується звернення до влади, немає офіційного визначення поняття "Дані науки", яке говорить про те, що ви можете робити лише щонайбільше X% очищення даних. Влада - це той, хто платить вам, якщо вони мають законне право припинити вам платити.

Ви також можете поглянути на це з іншого погляду: чи корисно це використовувати ваш час? Це здається, що ви взяли на себе роботу, щоб виконати деякі завдання (які ви маєте на увазі під "наукою про дані"), але вам доведеться зробити іншу справу (яку ви називаєте "суперечливі дані"). Опис роботи та особисті почуття трохи не суть тут, оскільки є щось більш доречне: компанія, ймовірно, платить вам гарну суму грошей, щоб зробити щось, що тільки ви можете зробити (наука даних). Але це змушує вас робити інші речі замість цього, що можуть зробити інші люди, які є комбінацією більш здібних, більш мотивованих або менш дорогих. Якщо суперечки даних може зробити хтось, хто заробляє половину вашої зарплати, то немає сенсу платити вам удвічі більше, щоб зробити те саме. Якби це можна було зробити швидшеким-небудь платили однакову зарплату, застосовується та ж логіка. Тому марно витрачати ресурси (особливо гроші), щоб компанія присвоїла вам це завдання. Якщо піти на це з цієї точки зору, вам може бути набагато простіше змусити начальників бачити вашу сторону речей.

Зрозуміло, наприкінці дня хтось повинен зробити дані суперечки. Можливо, найдешевший, найшвидший і найпростіший спосіб зробити це - найкраща людина для роботи - це ти. У такому випадку вам щось не пощастило. Ви можете спробувати стверджувати, що це не є частиною вашого контракту, але які шанси вони були досить наївні, щоб укласти щось таке конкретно в контракт?

— Whelibeiren
джерело

3

Можливо, просто:

Створюючи змінні та бінінг чисел, ви б робили це наосліп чи після аналізу своїх даних?
Коли однолітки переглядають ваші результати, якщо у них виникнуть запитання щодо певних бітів даних, чи не бентежить вас, що ви їх не знаєте?

Вам потрібно працювати і розуміти ваші дані - що включає прості речі від виправлення невідповідностей (NULL, порожні рядки, "-") до розуміння того, як частина даних переходить від зібраних до відображення. Його обробка включає знання одних і тих самих відомостей, тому частково це вам доведеться робити в будь-якому випадку.

Тепер, схоже, ця компанія могла б отримати користь від створення якогось безкоштовного екземпляра MySQL (або подібного) для зберігання ваших даних. Намагання бути гнучким під час проектування вашого кодового коду - це також хороша ідея - мати проміжний набір оброблених даних, я думаю, було б корисно, якщо вам це дозволено (і не вдається зробити це в MySQL).

Але ви, звичайно, все одно налаштовуєте речі з нуля. Це непростий процес, але цей "досвід навчання", принаймні, добре вносити у своє резюме.

— Девід М
джерело

3

1) Видається, що більшість робіт взагалі не пов'язані з наукою про дані. Це точно? На мою думку, Data Science не може вийти з суперечок. Але, як ви вже говорили, виникає питання про те, який відсоток Data Wrangling потрібно виконати Data Scientist. Це залежить від пропускної здатності організацій та зацікавленості людини в такій роботі. На моєму досвіді від 15 до 16 років, як DS, я завжди витрачав близько 60% до 70% на активність в обробці даних і витрачав максимум 15% часу на реальний аналіз. тож прийміть свій дзвінок.

2) Я знаю, що це не компанія, керована даними, яка має відділ інженерії даних високого рівня, але, на мою думку, наука про дані вимагає мінімальних рівнів доступності даних. Я помиляюся? Знову це залежить від політики безпеки організації. Вони не можуть залишити все вам і у них є власні проблеми безпеки, щоб розкрити дані особі, яка є тимчасовим працівником (вибачте, що використовуєте ці слова :-()

3) Чи такий тип налаштування є спільним для компанії з серйозними потребами в наукових даних? Я вважаю, що такі компанії потребують найбільшої уваги з боку науковців даних, щоб відчути, що моделювання, кероване даними - це майбутнє для підтримки їхнього бізнесу. :-)

Я дав свої вклади в роздуми про бізнес замість технічних позицій. :-) Сподіваюсь, я зрозумів свій вибір слів.

— user70920
джерело

3

У своїй розмові "Великі дані - це чотири різні проблеми", лауреат премії Тьюрінг Майкл Стоунбрейкер згадує саме цю проблему як велику проблему ( відео , слайди )

Він каже, що існує ряд відкритих проблем у цій галузі: «Поглинання», «Трансформація» (наприклад, євро / долар), «чистота» (наприклад, 99 / нуль), складання схем (наприклад, зарплата / зарплата), консолідація суб'єктів (наприклад, Майк Стоунбракер / Майкл Камінь-розбивач)

Існує ряд компаній / продуктів, які намагаються вирішити цю проблему, такі як Tamr, Alteryx, Trifacta, Paxata, Google Refine, які працюють над вирішенням цієї проблеми.

Поки ця сфера не дозріє, багато завдань, що займаються науковцями, будуть справді суперечливими даними.

— ходжусарам
джерело