Як захоплений користувач R, bash, Python, asciidoc, (La) TeX, програмного забезпечення з відкритим кодом або будь-яких інструментів un * x, я не можу дати об'єктивну відповідь. Більше того, як я часто заперечую проти використання MS Excel або будь-якої електронної таблиці (ну, ви бачите свої дані чи їх частину, але що ще?), Я б не сприяв позитивному дискусії. Я не єдиний, наприклад
- Наркоманія з електронних таблиць , від П. Бернса.
- Точність та точність MS Excel - повідомлення у списку розсилки 2004 R
- Л. Кнусел, Про точність статистичних розподілів у Microsoft Excel 97 , обчислювальна статистика та аналіз даних, 26: 375–377, 1998. ( pdf )
- BD McCullough & B. Wilson, Про точність статистичних процедур у Microsoft Excel 2000 та Excel XP , Computational Statistics & Data Analysis , 40: 713–721, 2002.
- М. Альтман, Дж. Гілл та М. П. Макдональд, Числові питання статистичних обчислень для соціолога , Вілі, 2004. [наприклад, с. 12–14]
Моя колега втратила всі свої макроси через відсутність зворотної сумісності і т. Д. Інший колега намагався імпортувати дані генетики (близько 700 суб'єктів генотипували на 800 000 маркерів, 120 Mo), просто "щоб їх подивитися". Excel не вдався, Блокнот теж відмовився ... Я вмію "дивитися на них" з vi та швидко переформатувати дані за допомогою сценарію sed / awk або perl. Тому я думаю, що існують різні рівні, які слід враховувати, обговорюючи корисність електронних таблиць. Або ви працюєте над невеликими наборами даних, і хочете застосувати лише елементарні статистичні дані, і, можливо, це добре. Тоді вам довіряти результати, або ви завжди можете запитати вихідний код, але, можливо, було б простіше зробити швидкий тест всіх вбудованих процедур за допомогою еталону NIST. Я не думаю, що це відповідає хорошому способу статистики просто тому, що це не справжнє статистичне програмне забезпечення (IMHO), хоча, як оновлення згаданого списку, новіші версії MS Excel, схоже, продемонстрували поліпшення точності для статистичний аналіз, див. Кілінг та Павур, Порівняльне дослідження надійності дев'яти пакетів статистичних програм ( CSDA 2007 51: 3811).
І все-таки приблизно один з 10 або 20 паперів (в галузі біомедицини, психології, психіатрії) включає графіку, зроблену за допомогою Excel, іноді без вилучення сірого фону, горизонтальної чорної лінії чи автоматичної легенди (Ендрю Гелман та Хедлі Вікхем, безумовно, такі ж щасливі, як мене, побачивши це). Але в цілому, це, як правило, найбільш використовуване "програмне забезпечення" згідно з останнім опитуванням на FlowingData, яке нагадує мені старі розмови про Брайана Ріплі (який був співавтором пакету MASS R, і написав чудову книгу про розпізнавання шаблонів , серед інших):
Давайте не заважатимемо собі: найпоширеніший фрагмент програмного забезпечення для статистики - це Excel (Б. Ріплі через Ян Де Лев), http://www.stats.ox.ac.uk/~ripley/RSS2002.pdf
Тепер, якщо ви вважаєте, що це забезпечує вам швидкий і простіший спосіб зробити статистику, чому б ні? Проблема полягає в тому, що все ще є речі, які неможливо зробити (або, принаймні, досить хитро) в такому середовищі. Я думаю про завантажувальну, перестановку, багатофакторний дослідницький аналіз даних, щоб назвати кілька. Якщо ви не дуже добре володієте VBA (яка не є ні сценарієм, ні мовою програмування), я схильний думати, що навіть незначні операції з даними краще оброблятись під R (або Matlab, або Python, якщо ви отримаєте потрібний інструмент для роботи наприклад, з так званими data.frame). Перш за все, я думаю, що Excel не просуває дуже хороших практик для аналітика даних (але це стосується і будь-якого "клікодрому". Дивіться дискусію на Medstats про необхідність ведення запису обробки даних,Документування аналізу та редагування даних ), і я знайшов цю публікацію в „ Практичній статистиці” порівняно показовою для деяких підводних каменів Excel. Але це стосується Excel, я не знаю, як це перекладається на GDocs.
Щодо спільного використання вашої роботи, я схиляюсь до думки, що Github (або Gist для вихідного коду) або Dropbox (хоча EULA може перешкоджати деяким людям) є дуже хорошими варіантами (історія редагування, управління грантами при необхідності тощо). Я не можу заохочувати використання програмного забезпечення, яке в основному зберігає ваші дані у двійковому форматі. Я знаю, що його можна імпортувати в R, Matlab, Stata, SPSS, але на мій погляд:
- остаточно дані повинні бути у текстовому форматі, який може бути прочитаний іншим статистичним програмним забезпеченням;
- аналіз повинен бути відтворюваним, тобто ви повинні надати повний сценарій для свого аналізу, і він повинен працювати (ми підходимо до ідеального випадку поблизу тут ...) в іншій операційній системі в будь-який час;
- ваше власне статистичне програмне забезпечення повинно реалізовувати визнані алгоритми, і повинен бути простий спосіб оновити його, щоб відобразити поточні найкращі практики статистичного моделювання;
- обрана вами система обміну повинна включати засоби для версій та спільної роботи.
Це воно.