Чи достатньо Excel для наукових даних?


10

Я зараз готуюсь викладати вступний курс з наукових даних з використанням мови програмування R. Моя аудиторія - студенти, що спеціалізуються на бізнес-предметах. Типовий недорогий бізнес не має досвіду комп'ютерного програмування, але він взяв кілька класів, які використовують Excel.

Особисто мені дуже зручно користуватися R (або іншими мовами програмування), тому що я поцікавився інформатикою. Однак у мене є відчуття, що багато моїх студентів будуть насторожено вивчати мову програмування, оскільки це може здатися їм важким.

У мене є деякі знайомі з Excel, і я вважаю, що, хоча Excel може бути корисним для простої науки про дані, студентам необхідно вивчити серйозну мову програмування для даних даних (наприклад, R або Python). Як я переконаю себе і студентів, що Excel недостатній для серйозного бізнес-студента, який вивчає дані даних, і що їм потрібно навчитися деякому програмуванню?

Відредаговано у відповідь на коментар

Ось деякі теми, які я висвітлюю:

  • Обробка та очищення даних
  • Як маніпулювати таблицею даних, наприклад, вибрати підмножину рядків (фільтр), додати нові змінні (мутувати), сортувати рядки за стовпцями
  • SQL приєднується за допомогою пакету dplyr
  • Як намалювати графіки (розкидати графіки, діаграми , гістограми тощо), використовуючи пакет ggplot2
  • Як оцінити та інтерпретувати статистичні моделі, такі як лінійна регресія, логістична регресія, класифікаційні дерева та k-найближчі сусіди

Оскільки я не дуже добре знаю Excel, я не знаю, чи всі ці завдання можна легко виконати в Excel.


Не знаючи, що є у вашому навчальному плані, на це запитання не можна відповісти. Сказавши це, вам слід поглянути на модель Power Pivot / Data Model в Excel. Цими днями ви можете легко обробляти багатогігабайтні набори з мільйонами рядків в Excel, і це швидко.
Гай

@Gaius Я додав детальну інформацію про те, що я хочу викладати на курсі
Мені подобається

Ваші пункти 1-4 добре підтримуються Data Model support.office.com/en-us/article/… - для пункту 5 я запропонував би вільний рівень студії AzureML.azureml.net
Гай

AzureML також працює з R btw
Gaius

4
Про ваш останній пункт - погляньте на книгу Джона Формана "Дані розумні" - amazon.com/Data-Smart-Science-Transform-Information/dp/…
Григорій Демін

Відповіді:


8

Перш за все, ознайомтеся з цією публікацією . Він має багато причин, чому Excel поступається іншим рішенням, що стосується завдань із наукових даних. Excel також не може обробляти великі набори даних (сотні тисяч записів - не кажучи вже про те, що поблизу Big Data ), зображення та звукові дані.

Excel корисний для простих завдань, що стосуються електронних таблиць; він більше акцентує увагу на презентації та простоті використання , маючи мінімальну підтримку для фактичного аналізу даних. Якщо тільки все, що ви хочете зробити, це обчислити прості статистичні вимірювання (середнє, середнє значення тощо) або побудувати дуже просту модель (наприклад, лінійна регресія), Excel є неефективним. При цьому, 99% роботи, з якою компанія має справу з даними, є досить простою, щоб бути керованою через Excel.

Однак Data Science в основному має справу з регресією, класифікацією та складними моделями, які не підходять для обробки! Якщо ваші студенти хочуть ознайомитись із наукою про дані, вам потрібно навчити їх інструменту, який буде їм корисний (R, python тощо). Ці мови також мають бібліотеки з тоннами вбудованих моделей, з якими можна «грати».

Ще одна справді величезна причина, з якої я б пішов з останніми варіантами - це те, що вони є відкритим кодом . Я особисто вважаю, що програмне забезпечення з відкритим кодом слід віддавати перевагу з освітньої точки зору власним рішенням (саме тому я пропоную python та R над Matlab)!


Я погоджуюся з усім вищесказаним, але він сказав, що вони є великими бізнес-напрямами. Чому б не навчити R, а також переконатися в демонстрації плагіна R / Excel?
CalZ

1
"Excel також не може обробляти великі набори даних (сотні тисяч записів" <- так, це легко. І він може виступати клієнтом для серйозних бек-ендів, таких як AzureML та PowerBI. Я не є фанбоєм Excel " "так багато, але мене змушує бачити людей, які нібито" керуються даними "людей, які навіть не знають основних інструментів.
Гай

1
Що робити, якщо це набір даних на мільйон рядків плюс тисячі стовпців, на тій же «базовій» машині (16 ГБ оперативної пам’яті, i7 ecc), яке рішення відкрило б її швидше? Я не намагаюся зневажити Excel, просто чесну цікавість. Занадто мені відомо, що я навіть не можу відкрити такий набір даних у Excel. RStudio читає його без проблем на одному ПК.
RLave

7

Я щойно закінчився з магістром з Business Analytics і зіткнувся з тією ж проблемою, яку ви описуєте. На щастя, я є технічною особою і змогла навчити себе R та Python, але я застряг у навчанні решти класу, як використовувати R та Python. Класи, які я мав, що використовували R / Python, були обмежені відсутністю технічного розуміння студентами, і так багато часу було витрачено на те, як просто відкрити R / Python. Заняття, які йшли іншим маршрутом, були непосильними і не дуже практичними. Я хотів зробити для класового проекту те, що не вдалося зробити в Excel через його обмеження, але вчитель не прийме жодних інших інструментів.

Це може бути не те, що ви можете зробити відразу, але я б настійно рекомендую вам спробувати перейти до кафедри, щоб вимагати курсу програмування до початку курсу. Інформація про науку та бізнес-аналітику ІМХО має бути кросс-дисципліною, яка вимагає гарної частини інформатики, але поки програми не дозріють і університетська система не покращиться, це може не відбуватися на деякий час.


Ви згадали, що «хотіли зробити для класового проекту те, що в результаті не вдалося зробити в Excel через його обмеження». Що ви намагалися зробити, чого не вдалося зробити в Excel?
Мені подобається

3

Я думаю, вам потрібно навчати їх такій популярній мові Data Science, як Python чи R. Excel, не збирається допомогти їм у реальній роботі та не є практичною для цілей науки. Напевно, я б сказав, що Python був би найціннішим для них у довгостроковій перспективі, і з пакетами, такими як scikit - дізнайтеся, що ваші регресії та класифікації можна продемонструвати в дуже невеликих рядках коду, які вони можуть прочитати та зрозуміти легше. Не завжди легко зрозуміти, що робить R, просто прочитавши його.

Ще одне слово поради: не витрачайте часу, змушуючи своїх учнів встановлювати IDE та завантажувати необхідні пакети, якщо ви використовуєте python, створіть для них віртуальне середовище з усіма необхідними пакетами та встановіть IDE, подібний pycharm (вони можуть отримати це та більшість інших IDE за ліцензією студент / академік), де потім можна розробити та запустити свій код через інтерфейс, а не консоль, який може виявитись заплутаним та заплутаним. Якщо ви спускаєтесь по маршруту R, то переконайтеся, що у вас встановлено IDE, подібний RStudio, і переконайтеся, що всі включені та встановлені пакети включені у код вашого прикладу або повністю описані.


"Excel не збирається допомогти їм у справжній роботі". Це, звичайно, так, якщо цим користуються всі їхні колеги. Які реальні роботи у вашому досвіді не використовують Excel?
Гай

3
Будь-яка роль Data Science, що працює з великими обсягами даних, включається моя. Як ви вважаєте, які DS-завдання, як правило, використовуватимуть Excel як основний інструмент?
Ден Картер

Я бачу з вашого профілю, що ви студент? Ой. Це студенти бізнесу, які проходять один курс в ДС. У своїх бізнес-роботах вони абсолютно використовуватимуть Excel як основний інструмент.
Гай

1
Впевнені, ви праві, що вони, скоріш за все, використовуватимуть Excel у ролі ділового типу, однак, як сказано в ОП: вони вже пройшли курси, що охоплюють Excel. Поєднайте це з тим, що Excel не є адекватним для галузевих чи академічних наукових даних, і зрозуміло, що викладання їх «Excel для наукових даних» не допоможе їм реально працювати, як я вже сказав. Ви не можете навчити чоловіка (або жінку) ловити рибу, навчаючи їх розмовляти французькою мовою.
Ден Картер

Що робити, якщо вони вже пройшли курси з Excel? Не поводьтеся як з недорослими людьми, нездатними вивчити R. Ми тут не говоримо про Haskell чи LISP!
Емре

2

Як я переконаю себе та студентів, що Excel недостатній для серйозного бізнес-студента, який вивчає дані даних

Створіть у R величезний data.frame (пару мільйонів рядків і сотні стовпців), збережіть його як .xlsx.

Покажіть їм різницю у часі при завантаженні його на R та в Excel на одній машині. Порівняйте основні операції зі статистикою між двома на одному і тому ж наборі даних, навіть графіки.

Пункт № 2-4 у вашому списку можна зробити і в Excel, просто ЛІТЬ більш болісно, ​​покажіть їм кілька прикладів того, наскільки простий (і швидший) фільтрується dplyr, порівняно з базовим Excel, знову на величезному наборі даних, що це виділить різниця.

Бонусний бал, якщо ви можете придумати набір даних, який збиває ваш ПК із запуском Excel.

Крім того, я б накреслив "безкоштовну у використанні" частину R (або Python). Наприклад, порівняно з SAS, якщо ви просто хочете спробувати одне рішення (тобто якийсь кластер), ви завантажуєте бібліотеку і спробуєте її, не потрібно платити більше, лише за спробу.

На мене це краса, ви можете спробувати безкоштовно все, що вам потрібно, і часто це важливо в DS, уявіть, якщо вам доведеться платити за кожну встановлену бібліотеку.


1

Excel та Data Science - для мене звучить дійсно дивно. Можливо, Excel та "Аналіз даних".

У будь-якому разі, я думаю, що хороший компроміс між Excel та R є: KNIME ( http://www.knime.org/knime-analytics-platform ). Це безкоштовно на робочому столі та набагато простіше розпочати роботу. Ви можете імпортувати / експортувати в Excel, але також використовувати R, Python або Java, якщо ~ 1.000 вузлів втрачають потрібну функціональність. Оскільки робочі процеси створюються візуально, їх також набагато простіше показати їх тому, хто не знає жодної мови програмування - що є певною перевагою в деяких компаніях.


0

Я думаю, що проблема полягає в тому, що ви намагаєтесь переконати своїх учнів, що, беручи участь у класі, вони можуть займатися наукою про дані, схожими на рівень сучасної науки про дані, тобто фантазії, такі як обробка зображень, розпізнавання обличчя. Ви чуєте цю приказку більшість часу, "беручи цей клас, ви будете ..." Те, що вам потрібно навчити їх, - це любов до даних та сміливість переглядати купу даних, возитися з ними, з надією зробити якийсь сенс з них. Щойно вони можуть це зробити, ви можете назвати їх науковцями даних, і ви повинні почувати себе гордістю за себе, бо зараз у вас є нове покоління науковців даних. Після цього, якщо вони дуже серйозно ставляться до наукових даних, вони можуть перейти на інші інтенсивні курси, які займаються математикою, статистикою та інформатикою (досвід програмування, як ви сказали). Я був у ситуації, подібній до ваших учнів. У мене не було досвіду CS, але я хотів проникнути в наукові дані та AI, взявши кілька онлайн-класів із фантазійними обіцянками. Я закінчив витрачати тонни грошей, але все-таки опинився в величезному розчаруванні (о, мені потрібно взяти цей клас, щоб знати цей алгоритм, о, вони зараз говорять про нейронні мережі, тому мені доведеться записатися на інший клас тощо) TL ;ДОКТОР. Інструменти якраз і становлять 1% вашої проблеми. Зі своїм фоном у вас не повинно виникнути проблем з розмитненням вищезазначених завдань в Excel за тиждень. о, вони зараз говорять про нейронні мережі, тому мені доведеться записатися в інший клас тощо) TL; DR. Інструменти якраз і становлять 1% вашої проблеми. Зі своїм фоном у вас не повинно виникнути проблем з розмитненням вищезазначених завдань в Excel за тиждень. о, вони зараз говорять про нейронні мережі, тому мені доведеться записатися в інший клас тощо) TL; DR. Інструменти якраз і становлять 1% вашої проблеми. Зі своїм фоном у вас не повинно виникнути проблем з розмитненням вищезазначених завдань в Excel за тиждень.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.