Чи використовують дані вчені Excel?


37

Я вважав би себе вченим даними. Як і більшість (я думаю), я склав свої перші графіки і зробив свої перші агрегації у середній школі та коледжі, використовуючи Excel. Пройшовши навчання в коледжі, середній школі та ~ 7 років досвіду роботи, я швидко підібрав те, що вважаю більш досконалими інструментами, такими як SQL, R, Python, Hadoop, LaTeX тощо.

Ми проводимо співбесіди на посаду науковця з даних, і один кандидат рекламує себе як «старшого науковця з даних» (дуже дратівливий термін в наші дні) з досвідом 15+ років. На запитання, який його переважний набір інструментів, він відповів, що це Excel.

Я сприйняв це як доказ того, що він не настільки досвідчений, як стверджує його резюме, але не був впевнений. Зрештою, те, що це не мій вподобаний інструмент, не означає, що це не чужі люди. Чи використовують досвідчені науковці даних Excel? Чи можете ви припустити відсутність досвіду у того, хто в основному використовує Excel?


Більшість оголошень про роботу з науковою інформацією вимагають конкретних навичок, таких як R, Hadoop, будь-які інші. Ви нехтували згадкою про це у своїй рекламі? Якщо ваш новий Data Scientist не буде працювати в бульбашці, тоді йому або їй доведеться працювати з командою, і, ймовірно, потрібно буде працювати зі стандартним програмним забезпеченням для команди ...
Spacedman

1
добре, якщо вони не користуватимуться, \LaTeX{}то я б не наймав їх. просто жартую ...
aeroNotAuto

1
@Spacedman: Я подав історію в анекдотичному контексті, але мене справді більше цікавлять погляди людей на чудовий досвід, ніж я наймаю поради. Наша команда вільна користуватися будь-якими інструментами, які нам подобаються.
JHowIX

1
Так, дивіться тут . Щодо жартів, ослаблених дивіться тут .
Дірк Еддельбюттель

1
Незалежно від вказаних років, я очікую, що Pro / Con список принаймні трьох інструментів від науковця даних. Вони повинні проявити спроможність досліджувати, зважувати варіанти та повідомляти резолюції. Навіть або, особливо, в інтерв'ю, я очікував би побачити реальну зацікавленість та здатність розширити минуле потенційно велике, але наразі бракує питання інтерв'ю.
Дейв

Відповіді:


28

Більшість нетехнічних людей часто використовують Excel як заміну бази даних. Я думаю, що це неправильно, але терпимо. Однак той, хто нібито має досвід аналізу даних, просто не може використовувати Excel в якості свого основного інструменту (виключаючи очевидну задачу перегляду даних вперше). Це тому, що Excel ніколи не був призначений для такого типу аналізу, і як наслідок цього, помилки в Excel надзвичайно просто (це не означає, що помилки іншого типу помилки під час використання інших інструментів не надзвичайно просто, але Excel ще більше погіршує ситуацію.)

Узагальнити те, що в Excel немає і є необхідним для будь-якого аналізу:

  1. Відтворюваність. Аналіз даних повинен бути відтвореним.
  2. Контроль версій. Добре для співпраці, а також добре для відтворюваності. Замість використання xls використовуйте csv (як і раніше дуже складний і має безліч крайових випадків, але csv парсери сьогодні досить непогані.)
  3. Тестування. Якщо у вас немає тестів, ваш код порушується. Якщо ваш код порушений, ваш аналіз гірший, ніж марний.
  4. Технічне обслуговування.
  5. Точність. Числова точність, точний аналіз дати, серед інших дійсно відсутні в Excel.

Більше ресурсів:

Європейська група з питань ризикових ризиків - Історії жахів

Не слід використовувати електронну таблицю для важливої ​​роботи (я маю на увазі це)

Microsoft Excel може бути найнебезпечнішим програмним забезпеченням на планеті

Знищіть свої дані за допомогою Excel за допомогою цього дивного трюку!

Електронні таблиці Excel важко підібрати


Для перегляду даних та швидкого їх аналізу, чи є інструменти, які широко сприймаються професіоналами, як порівнянні, але кращі, ніж Excel? Я новачок даних, і я в основному використовую (Postgre) SQL, але щось на зразок Excel може працювати швидше, якщо ви просто намагаєтеся виправити щось.
судо

1
Також я маю скаржитися, що CSV - це не стандарт. Ви дійсно повинні переконатися, що все, що відкривається, узгоджується з тим, що його виробило. OpenOffice робить це правильно і дозволяє вибирати багато варіантів CSV під час завантаження, а не припускати щось про формат.
судо

@sudo Інструменти залежать від обраної вами мови програмування, що здебільшого є особистим уподобанням. Наведемо лише кілька прикладів, R історично був хорошим вибором, Python в останні роки зросла популярність для аналізу даних, Julia - дуже перспективний новачок у цій галузі. Більшість мов програмування надають зрілі бібліотеки, які надають вам структури (наприклад, фрейми даних), особливо придатні для аналізу даних, і всі вони краще, ніж Excel. CSV стандартизований, але є деталі, які реалізуються по-різному, але це не повинно бути великою проблемою у вашій щоденній роботі.
Роберт Сміт

Я використовую Python для легкої обробки, але це не дуже відповідає цілям Excel. Наприклад, в Excel можна використовувати такі інструменти, як автофільтр та інтерактивні діаграми. Зазвичай я надсилаю свої дані в CSV для того, щоб мої додаткові матеріали переглядали в Excel чи щось подібне.
судо

@sudo Тоді ви хочете Панди. Pandas пропонує безліч методів маніпулювання вашими даними. Це включає підмножини на основі індексу, стовпців або умов, що є більш гнучким та потужним, ніж автофільтр. Тоді ви можете побудувати результат ( df.plot()) та експортувати свій результат у csv ( df.to_csv('output.csv')). Майте на увазі, що для аналізу даних зазвичай потрібно набагато більше, ніж фільтрування та складання графіків. Тому слід зосередити увагу на коректності, тому вам потрібно відокремити презентацію від аналізу. Виконайте свій аналіз на Python (або іншій мові), поділіться результатами в CSV, якщо це те, що ви хочете.
Роберт Сміт

15

Чи використовують досвідчені науковці даних Excel?

Я бачив деяких досвідчених науковців, які використовують Excel - або через їх уподобання, або через особливості бізнесу та ІТ-середовища на робочому місці (наприклад, багато фінансових установ використовують Excel як головний інструмент, принаймні, для моделювання). Однак я думаю, що більшість досвідчених науковців даних визнають необхідність використання інструментів, оптимальних для конкретних завдань, і дотримуються цього підходу.

Чи можете ви припустити відсутність досвіду у того, хто в основному використовує Excel?

Ні, ви не можете. Це слід з моїх вищезгаданих думок. Наука даних не передбачає автоматично великі дані - існує велика кількість науково-дослідницьких робіт, з якими Excel може впоратися досить добре. Сказавши, що якщо науковець даних (навіть досвідчений) не володіє знаннями (принаймні, основними) сучасних засобів інформатики, у тому числі великих, орієнтованих на дані, це дещо заважає. Це пояснюється тим, що експерименти глибоко вкорінені в природу науки про дані, завдяки тому, що дослідницький аналіз даних є важливою і навіть важливою його частиною. Отже, людина, яка не має бажання вивчати інші інструменти у своїй галузі, могла б стати нижчою серед кандидатів у загальній формі на посаду науки з інформацією (звичайно, це досить нечітко, оскільки деякі люди дуже швидко навчаються новий матеріал, плюс,

Тому, підсумовуючи, я вважаю, що найкраща відповідь досвідченого вченого-дослідника, можливо, матиме запитання щодо їх кращого інструмента: « Мій кращий інструмент є оптимальним, тобто тим, який найкраще відповідає заданій задачі.


5
Я ніколи б не звинувачував когось у тому, що він не знав Hadoop, але навіть у ситуаціях з невеликими даними я відчуваю себе так, ніби R перевершує. З R просто є безліч речей, які ви не можете зробити з Excel. Що стосується мене, ця людина не «виявила», що за свої 15 років
JHowIX

@JHowIX: Чи знайомий ви з терміном "досить добре"? Я також великий фанат R і вважаю за краще будь-який інструмент, включаючи Excel, будь-який день. Однак той факт, що R може зробити більше, не означає, що Excel (або будь-який інший інструмент, придатний для виконання завдання), поступається певному робочому контексту. Тож, хоча ваше занепокоєння справедливе (я посилаюся на це, використовуючи слово "тривожний"), можливо, у людини не було можливості / потреби зробити це. Пам’ятайте, що ви говорили про час, коли R існував, але був популярним здебільшого в наукових колах, а наука даних (називається аналізом даних чи подібним) не була такою гарячою, як сьогодні.
Олександр Блех

13

Я думаю, що більшість людей відповідають, не маючи гарних знань у програмі excel. Excel (з 2010 р.) Має в стовпці пам'яті стовпчик [мультитаблиця], що називається потужність повороту (що дозволяє вводити дані з csv / баз даних тощо), що дозволяє зберігати мільйони рядків (його не потрібно завантажувати на електронну таблицю) . Він також має інструмент ETL, який називається запит на потужність, що дозволяє читати дані з різних джерел (включаючи hadoop). У ньому є інструмент візуалізації (подання потужності та карта потужності). Дуже багато Data Science роблять агрегацію та топ-n аналіз, при яких вражає потужність. Додайте до цього інтерактивний характер цих інструментів - будь-який користувач може легко перетягнути розмір, на який можна розбити результати і надіюсь, ви зможете побачити переваги. Так що так, ви не можете робити машинне навчання,


Цікаво. Я звик до повільних і глючних речей, що це Excel 1998-2008. Треба випробувати новіші.
sudo

Я б хотів, щоб я міг схвалити відповідь seanv507 мільйон разів. Більшість відповідей тут показує, що багато людей не знають, наскільки потужними є новіші версії excel. І зауважте, що при використанні нових інструментів аналізу даних (наприклад, запит на потужність, потужність повороту, DAX) ви більше не обмежуєтесь 1, 048, 576 рядками даних та безліччю інших обмежень без цих інструментів
maze55555

Люди, які не мають бізнесу, не використовують excel. Період. А якщо випускники бізнесу зазвичай не займаються наукою про дані, ви можете зрозуміти незнання.
NoName

5

У своїй книзі Data Smart Джон Форман вирішує поширені проблеми з науковими даними (кластеризація, наївні басейни, ансамблеві методи, ...) за допомогою Excel. Дійсно, завжди добре мати певні знання про Python або R, але я думаю, що Excel все ще може виконати більшу частину роботи!


2
Власне, я був дуже здивований, коли прочитав книгу, що ти можеш так багато зробити з Excel. І щоб у ньому були вбудовані еволюційні та інші нелінійні вирішувачі! Приємною перевагою Excel є те, що ваша робота, особливо якщо ви користуєтеся відтворюваним кодом, доступна для більшості людей, ніж код R або Python.
Віктор Ма

5

Я здивований, як багато людей прихильні до прохолоди професії, а не до фактичної роботи, яку потрібно виконати. Excel - чудовий інструмент, з безкоштовним Powerpivot, Powerquery, він може зробити дуже багато. (вони не доступні в OS X). І якщо ви знаєте VBA, ви можете зробити деякі приємні речі. І тоді, якщо ви додасте до цього знання пітона, ви можете поєднати перші кроки вилучення даних та маніпуляції з python, а потім використовувати excel, особливо якщо ви візуальна людина. За допомогою excel ви можете реально перевірити агреговані дані перед подачею в будь-які подальші процеси чи візуалізацію. Це обов'язково має інструмент.


4

Excel дозволяє лише дуже малі дані і не має нічого достатнього корисного та гнучкого для машинного навчання або навіть просто побудови графіків. Все, що я робив би в Excel, - це поглянути на підмножину даних для першого погляду на значення, щоб переконатися, що я не пропускаю нічого, що видно оком.

Отже, якщо його улюбленим інструментом є Excel, це може підказати, що він рідко має справу з машинним навчанням, статистикою, більшими розмірами даних або будь-яким сучасним графіком. Хтось подібний, я б не назвав Data Scientist. Звичайно, заголовки не мають значення, і це дуже залежить від ваших вимог.

У будь-якому випадку не приймайте судження за допомогою досвіду чи резюме. Я бачив резюме та знав людей, які стоять за ним.

Не припускайте. Випробуй його! Ви повинні бути досить хорошими, щоб встановити тест. Було показано, що інтерв'ю одне лише є марним для визначення навичок (вони показують лише особистість). Створіть дуже простий контрольований навчальний тест і дозвольте йому використовувати будь-який інструмент, який він хоче.

А якщо ви хочете спершу перевірити людей на співбесіді, то запитайте його про дуже основні, але важливі відомості щодо статистики або машинного навчання. Щось те, що знає кожен ваш нинішній працівник.


2

Дозвольте спочатку уточнити, що я починаю свій шлях у науку даних з позицій програміста та розробника баз даних. Я не є десятирічним експертом з питань даних та не є статистичним богом. Однак я працюю вченим і великими наборами даних для компанії, яка працює з досить великими клієнтами по всьому світу.

З мого досвіду, науковець даних використовує всі необхідні інструменти, щоб виконати роботу. Excel, R, SAS, Python і багато іншого - це всі інструменти в наборі інструментів для хорошого вченого. Кращі можуть використовувати найрізноманітніші інструменти для аналізу та стискання даних.

Тому, якщо ви порівнюєте R з Python, то ви, ймовірно, робите все неправильно у світі науки даних. Хороші дані вчені використовують і тоді, коли є сенс використовувати одне над іншим. Це стосується і Excel.

Я вважаю, що досить важко знайти когось, хто матиме досвід у такій кількості різних інструментів та мов, в той час як у всьому відмінний. Я також думаю, що важко буде знайти науковця, який би міг не тільки програмувати складні алгоритми, але й знати, як їх використовувати і зі статистичної точки зору.

Більшість науковців, з якими я працював, мають приблизно два аромати. Ті, хто може програмувати, і ті, хто не може. Я рідко працюю з науковцем, який може витягувати дані в Python, маніпулювати ними чимось на зразок Pandas, підходити модель до даних в R і потім представляти їх для управління в кінці тижня.

Я маю на увазі, я знаю, що вони існують. Я читав багато блогів із наукових даних від хлопців, які розробляють веб-скраппери, штовхають його в Hadoop, витягують його назад у Python, програмують складні речі та проводять його через R до завантаження. Вони існують. Вони там. Я просто не наткнувся на занадто багато людей, які можуть все це зробити. Можливо, це просто моя область?

Отже, чи означає це лише спеціалізація на одній поганій справі? Ні. Багато моїх друзів спеціалізуються лише на одній основній мові і вбивають її. Я знаю безліч хлопців даних, які знають тільки R і вбивають його. Я також знаю багато людей, які просто використовують Excel для аналізу даних, тому що це єдине, що може відкрити та використовувати більшість науковців, які не мають даних (особливо в компаніях B2B). Питання, на яке вам дійсно потрібно відповісти, це чи є ця річ ЄДНЕ, що вам потрібно для цієї посади? І найголовніше, чи можуть вони навчитися новому?

PS

Data Science не обмежується лише "BIG DATA" або NoSQL.


Привіт, Глен, дякую за ваші коментарі. Подивіться за наступним посиланням. Це від Swami Chandrasekaran, який керував командою Watson в IBM, тому, на мою думку, досить досвідчений науковець. Він має програмування, як по суті, третє, що повинен знати вчений, за основу "Основи" та "Статистика". Згідно з його дорожньою картою, як тільки ти вмієш програмувати, ти складаєш 15% шляху до того, щоб бути науковцем даних. Виходячи з цього, я можу трохи не погодитись із твердженням, що справжні дані вчені мають "непрограмуючий" аромат. nirvacana.com/oughts/becoming-a-data-scientist
JHowIX

Ну, я це кажу лише на основі досвіду. Більшість курсів зі статистики та даних навіть не охоплюють програмування поза тим, що потрібно для популярних статистичних програм. Через це більшість хлопців, з якими я зіштовхуюсь у світі статистики, не дуже добре програмують. Це як задумка, коли вони входять у реальний світ і розуміють, що це допомагає.
Глен Лебедь

1

Excel може бути чудовим інструментом для дослідницького аналізу даних, він дійсно залежить від ваших потреб, і, звичайно, він має свої обмеження, як і будь-який інструмент, але безумовно, заслуговує на місце у залі слави науки даних.

Варто пам’ятати, що на практиці більшість користувачів так чи інакше вивчатимуть значно зменшений набір даних (створений із SQL-запиту).

Excel є потужним для вивчення даних, коли ви використовуєте об'єкт "table" у поєднанні зі зведеними таблицями, візуалізація - це максимум 1-2 кліки та безліч таблиць Excel в PowerPoint. науковий обчислювальний контекст. Інтерактивна природа означає, що ви можете швидко досліджувати.

Переваги об'єкта "table" полягають у тому, що при перетворенні даних далі у excel, щоб ви могли вивчити нові розподіли, зведені таблиці пам'ятають змінну.

Якщо excel є слабким, це те, що список формул, ймовірно, обмежує, наприклад, випадок випадку SQL або стаття python набагато гнучкіший, ніж нескінченний ланцюг функцій if.

Це дійсно залежить від ваших потреб, але безумовно, заслуговує на місце у залі слави науки даних.

Цікавий анекдот, що команда, яка працює над алгоритмом стрічки новин Facebook, регулярно може бачити, як грає в чудово та багато електронних таблиць.


0

Я викладаю курс Business Analytics, який включає SQL та Excel. Я викладаю в бізнес-школі, тому мої студенти не є найбільш технічно здатними, тому я не використовував щось на кшталт R, Pandas або Weka. Однак, Excel є досить потужним інструментом для аналізу даних. Більшу частину цієї потужності він отримує завдяки своїй здатності виконувати функції переднього кінця для служб аналізу SQL Server (компонента в SQL Server для аналізу даних) за допомогою надбудови Data Mining.

SSAS дозволяє будувати дерева рішень, виконувати лінійні та логістичні регресії та навіть робити байєсові чи нейронні мережі. Я виявив, що використання Excel як першоджерела є менш загрозливим підходом до аналізу таких видів, оскільки вони раніше використовували Excel. Спосіб використання SSAS без Excel - це спеціалізована версія Visual Studio, і це не самий зручний інструмент. Якщо ви комбінуєте його з кількома іншими інструментами Excel, такими як Power Query та Power Pivot, ви зможете зробити досить складний аналіз даних.

Повне розкриття інформації, я, мабуть, не буду використовувати її знову, коли я буду викладати нову версію курсу в наступному році (ми розділимо її на два курси, щоб можна було більше зосередитись на аналізі даних). Але це лише тому, що університету вдалося отримати достатню кількість ліцензій на Alteryx, що ще простіше у використанні та більш потужне, але це $ 4-85k / користувач / рік, якщо ви не зможете якось безкоштовно отримати його. Скажіть, що ви будете з Excel, але це перевищує цю ціну.


0

Excel може бути відмінним інструментом. Звичайно, залежно від того, що ви робите, він може не відповідати законопроекту, але якщо він буде, відкидати його було б майже нерозумно. Хоча для налаштування вашого трубопроводу потрібен певний час, в Excel ви можете вразити землю в значній мірі: вбудований інтерфейс, легка розширюваність через VBA навіть за допомогою Python (наприклад, https://www.xlwings.org ). Це може бути не ідеально, коли мова йде про такі речі, як контроль версій, але є способи змусити його працювати з Git (наприклад, https://www.xltrail.com/blog/auto-export-vba-commit-hook ).


-2

Цей індивід працює з "Big Data" і в першу чергу використовує Excel? Серйозно?!?! Excel обробляє лише 1, 048, 576 рядків даних в одній електронній таблиці. Для наборів даних, що перевищують цей, потрібен плагін. Також зведені таблиці в Excel мають суворі обмеження на аналіз, який можна виконати з їх допомогою.

Які типи завдань з аналізу даних потрібно було б виконати в тій роботі, яку ви набираєте?

Я пропоную вам провести співбесіди, які включають тести типу завдань, які потрібно буде виконати в роботі, що розглядається. Не порушуючи конфіденційність, конфіденційність чи захист даних, завдання програмування чи аналізу даних, встановлені в рамках інтерв'ю, повинні включати (псевдонімізований) підмножину набору даних, що стосується посади, за якою проводиться опитування. В іншому випадку ви можете набрати того, хто є чітким в інтерв'ю на основі розмови, але насправді не є компетентним у виконанні фактичної роботи.


Ніхто не сказав "великих даних". Вони сказали: «науковець даних». Не всі дані є "великими даними". Я працював з досвідченими науковцями, які використовували всі R, Python, SQL та Excel в одному проекті. Не весь аналіз даних є програмним або сценарієм. Як сказано в іншому місці, невизначена специфіка роботи => різні типи даних вчених.
smci
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.