Excel як робочий стіл зі статистикою


52

Здається, що багато людей (включаючи мене) люблять робити дослідницький аналіз даних в Excel. Деякі обмеження, такі як кількість рядків, дозволених у електронній таблиці, є більшими, але в більшості випадків не унеможливлюють використання Excel для гри з даними.

Документ Маккаллоу та Хайзера практично кричить, що ви отримаєте всі результати неправильно - і, ймовірно, також спалите в пеклі - якщо ви спробуєте використовувати Excel.

Чи правильний цей документ чи він упереджений? Автори звучать так, ніби вони ненавидять Microsoft.


5
Нещодавній аналіз точності програмного забезпечення електронних таблиць для статистичних обчислень з'явився в [Келлі Б. Кілінг та Роберт Дж. Павур (2011): Статистична точність програмного забезпечення електронних таблиць, Американський статистик, 65: 4, 265-273] (наразі безкоштовне завантаження на сайті amstat.tandfonline.com/doi/pdf/10.1198/tas.2011.09076 ). Результати неоднозначні і, можливо, трохи дивують. Помітним є величезне вдосконалення розрахунків розподілу між Excel 2007 та Excel 2010 (яке, здається, є більш точним Rабо SAS).
whuber

Відповіді:


45

Використовуйте правильний інструмент для правильної роботи та використовуйте сильні сторони інструментів, які ви знайомі.

У випадку Excel є кілька важливих питань:

  • Будь ласка, не використовуйте електронну таблицю для управління даними, навіть якщо ваші дані вмістяться в одну. Ти просто просиш клопоту, страшну неприємність. Практично немає захисту від друкарських помилок, оптового змішування даних, обрізання значень даних тощо тощо.

  • Багато статистичних функцій справді порушені. Розподіл t - один із них.

  • Графіка за замовчуванням жахлива.

  • У ньому відсутні деякі фундаментальні статистичні графіки, особливо боксплоти та гістограми.

  • Генератор випадкових чисел - це жарт (але, незважаючи на це, все ще діє в освітніх цілях).

  • Уникайте функцій високого рівня та більшості надбудов; вони c ** p. Але це лише загальний принцип безпечних обчислень: якщо ви не впевнені, що функція робить, не використовуйте її. Дотримуйтесь низькорівневих (які включають арифметичні функції, ранжирування, exp, ln, триггерні функції та - в межах - нормальні функції розподілу). Ніколи не використовуйте надбудову, яка створює графіку: це буде жахливо. (Примітка. Створити власні графіки ймовірностей легко з нуля. Вони будуть правильними та налаштованими.)

На його користь, однак, такі:

  • Його основні чисельні обчислення настільки ж точні, як і поплавці подвійної точності. Вони включають деякі корисні, наприклад, журнальна гамма.

  • Досить легко обернути елемент керування навколо вхідних полів у електронній таблиці, що дозволяє легко створювати динамічні імітації.

  • Якщо вам потрібно поділитися розрахунком з нестатистичними людьми, більшість буде мати певний комфорт з електронною таблицею і взагалі немає зі статистичним програмним забезпеченням, як би це не було дешевим.

  • Неважко записати ефективні числові макроси, включаючи перенесення старого коду Fortran, який досить близький до VBA. Більше того, виконання VBA є досить швидким. (Наприклад, у мене є код, який точно обчислює нецентральні розподіли t з нуля та три різні реалізації швидких перетворень Фур'є.)

  • Він підтримує ефективні симуляції та додатки Монте-Карло, такі як Crystal Ball та @ Risk. (До речі, вони використовують власні RNG, - я перевірив.)

  • Безпосередня взаємодія безпосередньо з (невеликим набором) даних не має собі рівних: це краще, ніж будь-який пакет статистичних даних, Mathematica тощо. Якщо використовується як гігантський калькулятор з навантаженнями пам’яті, електронна таблиця дійсно стає власною.

  • Хороший EDA, використовуючи надійні та стійкі методи, непростий, але після того, як ви зробите це один раз, ви можете швидко встановити його знову. За допомогою Excel ви зможете ефективно відтворити всі обчислення (хоча лише деякі з сюжетів) у книзі EDA Tukey, включаючи посереднє полірування таблиць n-way (хоча це трохи громіздко).

У прямій відповіді на оригінальне запитання в цьому документі є упередженість: вона зосереджена на матеріалі, до якого Excel є найслабшим, і який найменш вірогідний використовувати компетентний статистик. Це, однак, не є критикою цього документу, оскільки такі попередження потрібно транслювати.


7
@whuber Приємний і зручний огляд плюсів і мінусів!
chl

4
+1 приємно і врівноважено. Мені особливо подобається точка про "безпосередню взаємодію безпосередньо", яка, на мою думку, є найбільшою точкою продажів Excel (або насправді, електронної таблиці). Декларативне програмування для мас - яке пояснює, чому деякі люди думають, що 80% світової бізнес-логіки написано в Excel (варто звернути увагу на програмістів та статистиків, які сперечаються щодо R v SAS або Java v C ++ тощо).
АРС

2
Я чув, що Microsoft кілька років тому найняла численних аналітиків, щоб виправити порушені функції в Excel. Чи знаєте ви, чи все ще існують проблеми з Excel у версіях 2007 або 2010?
Джон Д. Кук

2
@Zach Наприклад, використовуючи Excel 2002, обчисліть =TINV(2*p,df)значення p, що змінюються від .01 до майже 0 і порівняйте їх з правильними значеннями. (Я перевірив з df в діапазоні від 2 до 32.) Помилки починаються з шостої значущої цифри, а потім вибухають, коли p становить близько 1.E-5 або нижче. Незважаючи на те, що ці значення p невеликі, вони є реалістичними значеннями для перевірки, оскільки вони мають вирішальне значення для тестів багаторазового порівняння та для обчислення значень, пов'язаних з розподілом t, наприклад, нецентральне t.
whuber

2
Я думаю, що у вашій першій кулі повинні бути зірки та стрілки, що викликають це. Електронні таблиці не містять аудиторських записів, що дуже важливо, якщо ви збираєтесь виконувати роботу, на яку хтось насправді покладається. R, навпаки, не забезпечує безпосередньо аудиторський слід, але оскільки він приймає команди, і ви можете зберігати команди для імпорту, попередньої обробки, обробки, графіку тощо, в окремому файлі ви можете мати слід того, що ви зробили для отримайте Графік №1, і ви зможете відтворити його з нуля, на всякий випадок, якщо у вас раптом є підстави поставити під сумнів.
Уейн

18

Цікавий документ про використання Excel у налаштуваннях біоінформатики:

Помилкові ідентифікатори: помилки імен генів можуть бути введені ненавмисно при використанні Excel у біоінформатиці, BMC Bioinformatics, 2004 ( посилання ).

У цьому короткому документі описана проблема автоматичного перетворення типу в Excel (зокрема, перетворення дати та плаваючої точки). Наприклад, ім'я гена Sept2 перетворюється на 2-Sept. Ви можете знайти цю помилку в онлайн-базах даних .

Використання Excel для управління середніми та великими обсягами даних є небезпечним. Помилки можуть легко повзати, не помічаючи користувача.


6
Це далеко не той аспект Excel, який найбільше мене лютує. Для зберігання даних потрібні чіткі типи даних, а не форматування.
Метт Паркер

3
Власне, це щось про програмне забезпечення MS в цілому мене дратує: воно змінює ваш внесок у те, що він вважає, що ви насправді мали на увазі, і ви зазвичай навіть не бачите цього.
Карлос Аціоліо

@csgillespie (+1) Приємно чути про Excel з цієї точки зору!
chl

6
Моя улюблена помилка виникла, коли Excel використовував для спокійного скорочення полів під час експорту в інші формати. У файлі концентрацій пестицидів у ґрунті він перетворив значення 1000,050 (надзвичайно токсичний) до 50 (майже непредметно), відсікаючи початкову цифру!
whuber

@Matt є єдиним шаленим, якщо ви "зберігаєте" дані в Excel. Це відмінна особливість при використанні Excel виключно в якості переднього кінця для звітування та створення діаграм.
Анонімний тип

11

Ну, питання про те, правильний чи упереджений документ, має бути простим: ви можете просто повторити деякі їх аналізи і побачити, чи отримаєте ви однакові відповіді.

МакКаллоу вже кілька років розбирає різні версії MS Excel, і, очевидно, MS не вважає за потрібне виправляти помилки, на які вказував роки тому в попередніх версіях.

Я не бачу проблем із розігруванням даних із Excel. Але якщо чесно, я б не робив своїх "серйозних" аналізів в Excel. Моєю основною проблемою були б неточності (що, мабуть, буде дуже рідко проблемою), а неможливість відстежувати та повторювати мої аналізи через рік, коли рецензент чи мій начальник запитують, чому я не робив X - ви можете зберегти свій робота та ваші сліпі алеї в коментованому коді R, але не в змістовному значенні в Excel.


2
(+1) Ви чудово повторюєте дискусію на Medstats про необхідність вести облік редагування та аналізу даних ( j.mp/dAyGGY )! Дякую.
chl

Збереження вашої "роботи та сліпих алей" не є складніше зробити з Excel, ніж з R. Це просто питання насправді зробити це. Основна проблема в Excel пов'язана з його силою: все занадто просто змінити щось ненавмисно. Але для EDA - основної уваги ОП - ми рідко, якщо взагалі економимо все, що робимо. Зрештою, EDA має бути інтерактивним.
whuber

1
можна зберігати відтворювані записи своїх методів, якщо ви робите це в VB, але фокус графічного інтерфейсу Excel не заохочує таку поведінку.
Джеймс

7

До речі, питання щодо використання електронних таблиць Google викликало контрастні (отже, цікаві) думки з цього приводу: Чи використовуєте деякі з вас електронну таблицю Google Документи для того, щоб проводити та ділитися своєю статистичною роботою з іншими?

Я маю на увазі старішу статтю, яка не здавалася настільки песимістською, але вона лише незначно цитується в роботі, яку ви згадали: Keeling and Pavur, порівняльне дослідження надійності дев'яти пакетів статистичних програм (CSDA 2007 51: 3811). Але тепер я знайшов вашу на своєму жорсткому диску. Також у 2008 році був спеціальний випуск, див. Спеціальний розділ про Microsoft Excel 2007 , а останнім часом у Журналі статистичного програмного забезпечення: Про числову точність електронних таблиць .

Я думаю, що це давня дискусія, і ви знайдете різні документи / думки про надійність Excel для статистичних обчислень. Я думаю, що існують різні рівні дискусії (який аналіз ви плануєте зробити, чи покладаєтесь на внутрішнє вирішення, чи є нелінійні терміни, які вводять дану модель тощо), і можуть виникнути джерела чисельної неточності. в результаті правильних обчислювальних помилок або проблем із вибором проекту ; це добре узагальнено в

М. Альтман, Дж. Гілл та М. П. Макдональд, Числові питання статистичних обчислень для соціолога , Вілі, 2004.

Тепер для дослідження дослідницьких даних існують різні альтернативи, які забезпечують розширені можливості візуалізації, багатоваріантну та динамічну графіку, наприклад, GGobi - але дивіться відповідні теми на цій вікі.

Але, очевидно, перший пункт, який ви зробили, стосується іншої проблеми (IMO), а саме використання електронної таблиці для роботи з великим набором даних: просто імпортувати великий файл csv в Excel просто неможливо (я думаю про геномні дані, але це стосується інших видів високомірних даних). Він не був побудований для цієї мети.


Мені подобається нюанс щодо "різних рівнів обговорення".
whuber

7

Документи та інші учасники вказують на технічні недоліки. Whuber робить хорошу роботу з окреслення хоча б деяких його сильних сторін. Я особисто займаюся великою статистичною роботою в Excel (тестування гіпотез, лінійних та множинних регресій) і люблю це. Я використовую Excel 2003 місткістю 256 стовпців і 65000 рядків, які можуть обробляти близько 100% використовуваних нами наборів даних. Я розумію, що Excel 2007 збільшив цю потужність на величезну кількість (мільйони рядків).

Як згадує Whuber, Excel також служить стартовою платформою для безлічі видатних програмних засобів, які є досить потужними та зручними у використанні. Я думаю про Crystal Ball та @ Risk для Monte Carlo Simulation; XLStat для всієї потужної статистики та аналізу даних; Що найкраще для оптимізації. І, список продовжується. Наче Excel є еквівалентом IPod або IPad із мільйонам досить неймовірних програм. Зроблено програми Excel - це недешево. Але, на що вони здатні робити, вони, як правило, досить великі угоди.

Що стосується модельної документації, то так просто вставити текстове поле, де ви можете буквально написати книгу про свою методологію, джерела тощо. Ви також можете вставити коментарі в будь-яку клітинку. Отже, якщо що-небудь є Excel справді хороший для полегшення вбудованої документації.


1
Дякуємо за додаткові бали та за те, що поділилися вашою точкою зору.
whuber

чудові бали, добре почути того, хто використовує це правильним способом і приносить користь.
Анонімний тип

6

Excel не корисний для статистики, але це може бути чудовим для дослідницького аналізу даних. Подивіться у цьому відео деякі цікаві прийоми. Здатність Excel умовно забарвлювати ваші дані та додавати діаграми в комірці в клітинку може чудово зрозуміти структуру ваших необроблених даних.


6

Ще одне хороше джерельне джерело, чому ви, можливо, не хочете використовувати excel, це:

Залежність до електронних таблиць

Якщо ви опинитесь у ситуації, коли вам дійсно потрібно використовувати excel (деякі академічні відділи наполягають), то я б запропонував використовувати плагін Rexcel . Це дозволяє інтерфейсувати за допомогою Excel, але використовує програму R як обчислювальну систему. Вам не потрібно знати R, щоб використовувати його, ви можете використовувати спадні меню та діалоги, але ви можете зробити набагато більше, якщо це зробити. Оскільки R робить обчислення, вони набагато довірчіші, ніж Excel, і у вас набагато кращі графіки та боксплоти та інші графіки, відсутні у excel. Він навіть працює з автоматичним оновленням комірок у excel (хоча це може зробити насправді повільними, якщо у вас є багато складних аналізів для кожного перерахунку). Це не виправляє всіх проблем на сторінці залежності від електронних таблиць, але це величезне вдосконалення в порівнянні з використанням прямого досвіду.


1

Excel може бути чудовим як для дослідницького аналізу даних, так і для лінійного регресійного аналізу з правильними плагінами. Існує ряд комерційних продуктів, хоча більшість з них залишає бажати кращого з точки зору якості продукції, яку вони виробляють (вони не в повній мірі користуються можливостями графіків Excel або можливістю зв’язуватися з іншими додатками Office) та загалом вони не такі хороші, як могли б бути для візуалізації та подання даних. Вони також, як правило, не підтримують дисциплінований моделюючий підхід, в якому (серед іншого) ви зберігаєте добре задокументований аудиторський слід для своєї роботи. Ось БЕЗКОШТОВНИЙ плагін "RegressIt", який стосується багатьох із цих питань: http://regressit.com. Він забезпечує дуже хорошу підтримку дослідницького аналізу (включаючи можливість генерування паралельних графіків часових рядів та матриць розсіювання з до 50 змінних), дозволяє легко застосовувати перетворення даних, такі як відставання, ведення журналів та розходження (які часто не застосовуються належним чином наївним користувачам регресії), він забезпечує дуже детальну таблицю та діаграми, що підтримують найкращі практики аналізу даних, а також підтримує робочий аркуш аудиту, який полегшує порівнювання моделей, а також ведення запису про те, які моделі були встановлені в якому порядку. Це добре доповнює все, що ви можете використовувати, якщо ви маєте справу з багатовимірними даними і хоча б частина вашої роботи виконується в середовищі Excel.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.