Хтось із вас використовує електронну таблицю Документів Google, щоб вести та ділитися своєю статистичною роботою з іншими?

Я знаю, що більшість із вас, напевно, відчувають, що Google Документи все ще є примітивним інструментом. Це не Matlab або R і навіть не Excel. Тим не менш, я здивований силою цього веб-програмного забезпечення, яке просто використовує функціональні можливості браузера (і сумісне з багатьма браузерами, які працюють дуже по-різному).

Майк Лоуренс, активний на цьому форумі, ділився з нами електронною таблицею за допомогою Документів Google, роблячи з цим деякі досить фантазії. Я особисто повторив досить ґрунтовну рамку тестування гіпотез (включаючи численні параметричні та непараметричні тести), спочатку зроблені в Excel в Google Документах.

Мене цікавить, чи хтось із вас спробував Google Docs і підштовхнув його до своїх меж у цікавих програмах. Мені також цікаво дізнатися про помилки або недоліки, з якими ви стикалися з Google Документами

Я позначаю це питання "для вікі спільноти", вказуючи, що найкращих відповідей на це немає. Це більше, ніж опитування.

software computational-statistics

— Gaetan Lion
джерело

Не могли б ви зв’язатись із наданою електронною таблицею Майком Лоуренсом?

— Andy W

Ось URL spreadsheets.google.com / ... Це було пов'язано з його питання stats.stackexchange.com/questions/2956 / ...

— Sympa

Документи Google, коли вони офіційно перевірені, сумлінно виконували більшість статистичних обчислень (коли це взагалі можна було зробити). Дивіться Келлі Б. Кілінг та Роберт Дж. Павур (2011): Статистична точність програмного забезпечення електронних таблиць, Американський статистик, 65: 4, 265-273

— whuber

Відповіді:

Моє основне використання для електронних таблиць google було з формами google, для збору даних, а потім легко імпортування їх у R. Ось публікація, про яку я писав про це півроку тому:

Електронні таблиці Google + google форми + R = легко збирати та імпортувати дані для аналізу

Крім того, якщо ви співпрацюєте, мій інструмент вибору - DropBox. Я написав повідомлення про це кілька місяців тому:

Синхронізація файлів на комп’ютерах за допомогою DropBox

Зараз я використовую його вже близько півроку в проекті з 5 співавторами, і це було неоціненно (синхронізувати файли даних від 3-х учасників, кожен може побачити останню версію результату, який я виробляю, і всі шукають при цьому файл .docx для статті).

Обидва пости пропонують відео-уроки та усні інструкції.

— Тал Галілі
джерело

Дякуємо за ваш відгук. Це саме той тип коментарів, який мене зацікавив. Ви дійсно використовували компонент спільного доступу та імпорту документів Google. Добре вам. Я прочитаю ваш матеріал, щоб дізнатися більше про нього.

— Sympa

Шановний Гаетане, я в захваті від твоєї відповіді - дякую за добрі слова. Найкраще, Таль.

— Тал Галілі

Як захоплений користувач R, bash, Python, asciidoc, (La) TeX, програмного забезпечення з відкритим кодом або будь-яких інструментів un * x, я не можу дати об'єктивну відповідь. Більше того, як я часто заперечую проти використання MS Excel або будь-якої електронної таблиці (ну, ви бачите свої дані чи їх частину, але що ще?), Я б не сприяв позитивному дискусії. Я не єдиний, наприклад

Наркоманія з електронних таблиць , від П. Бернса.
Точність та точність MS Excel - повідомлення у списку розсилки 2004 R
Л. Кнусел, Про точність статистичних розподілів у Microsoft Excel 97 , обчислювальна статистика та аналіз даних, 26: 375–377, 1998. ( pdf )
BD McCullough & B. Wilson, Про точність статистичних процедур у Microsoft Excel 2000 та Excel XP , Computational Statistics & Data Analysis , 40: 713–721, 2002.
М. Альтман, Дж. Гілл та М. П. Макдональд, Числові питання статистичних обчислень для соціолога , Вілі, 2004. [наприклад, с. 12–14]

Моя колега втратила всі свої макроси через відсутність зворотної сумісності і т. Д. Інший колега намагався імпортувати дані генетики (близько 700 суб'єктів генотипували на 800 000 маркерів, 120 Mo), просто "щоб їх подивитися". Excel не вдався, Блокнот теж відмовився ... Я вмію "дивитися на них" з vi та швидко переформатувати дані за допомогою сценарію sed / awk або perl. Тому я думаю, що існують різні рівні, які слід враховувати, обговорюючи корисність електронних таблиць. Або ви працюєте над невеликими наборами даних, і хочете застосувати лише елементарні статистичні дані, і, можливо, це добре. Тоді вам довіряти результати, або ви завжди можете запитати вихідний код, але, можливо, було б простіше зробити швидкий тест всіх вбудованих процедур за допомогою еталону NIST. Я не думаю, що це відповідає хорошому способу статистики просто тому, що це не справжнє статистичне програмне забезпечення (IMHO), хоча, як оновлення згаданого списку, новіші версії MS Excel, схоже, продемонстрували поліпшення точності для статистичний аналіз, див. Кілінг та Павур, Порівняльне дослідження надійності дев'яти пакетів статистичних програм ( CSDA 2007 51: 3811).

І все-таки приблизно один з 10 або 20 паперів (в галузі біомедицини, психології, психіатрії) включає графіку, зроблену за допомогою Excel, іноді без вилучення сірого фону, горизонтальної чорної лінії чи автоматичної легенди (Ендрю Гелман та Хедлі Вікхем, безумовно, такі ж щасливі, як мене, побачивши це). Але в цілому, це, як правило, найбільш використовуване "програмне забезпечення" згідно з останнім опитуванням на FlowingData, яке нагадує мені старі розмови про Брайана Ріплі (який був співавтором пакету MASS R, і написав чудову книгу про розпізнавання шаблонів , серед інших):

Давайте не заважатимемо собі: найпоширеніший фрагмент програмного забезпечення для статистики - це Excel (Б. Ріплі через Ян Де Лев), http://www.stats.ox.ac.uk/~ripley/RSS2002.pdf

Тепер, якщо ви вважаєте, що це забезпечує вам швидкий і простіший спосіб зробити статистику, чому б ні? Проблема полягає в тому, що все ще є речі, які неможливо зробити (або, принаймні, досить хитро) в такому середовищі. Я думаю про завантажувальну, перестановку, багатофакторний дослідницький аналіз даних, щоб назвати кілька. Якщо ви не дуже добре володієте VBA (яка не є ні сценарієм, ні мовою програмування), я схильний думати, що навіть незначні операції з даними краще оброблятись під R (або Matlab, або Python, якщо ви отримаєте потрібний інструмент для роботи наприклад, з так званими data.frame). Перш за все, я думаю, що Excel не просуває дуже хороших практик для аналітика даних (але це стосується і будь-якого "клікодрому". Дивіться дискусію на Medstats про необхідність ведення запису обробки даних,Документування аналізу та редагування даних ), і я знайшов цю публікацію в „ Практичній статистиці” порівняно показовою для деяких підводних каменів Excel. Але це стосується Excel, я не знаю, як це перекладається на GDocs.

Щодо спільного використання вашої роботи, я схиляюсь до думки, що Github (або Gist для вихідного коду) або Dropbox (хоча EULA може перешкоджати деяким людям) є дуже хорошими варіантами (історія редагування, управління грантами при необхідності тощо). Я не можу заохочувати використання програмного забезпечення, яке в основному зберігає ваші дані у двійковому форматі. Я знаю, що його можна імпортувати в R, Matlab, Stata, SPSS, але на мій погляд:

остаточно дані повинні бути у текстовому форматі, який може бути прочитаний іншим статистичним програмним забезпеченням;
аналіз повинен бути відтворюваним, тобто ви повинні надати повний сценарій для свого аналізу, і він повинен працювати (ми підходимо до ідеального випадку поблизу тут ...) в іншій операційній системі в будь-який час;
ваше власне статистичне програмне забезпечення повинно реалізовувати визнані алгоритми, і повинен бути простий спосіб оновити його, щоб відобразити поточні найкращі практики статистичного моделювання;
обрана вами система обміну повинна включати засоби для версій та спільної роботи.

Це воно.

— чл
джерело

@Gaetan Окрім своєї відповіді, я поставив свій +1 питання, тому що я думаю, що це дуже актуально для дискусій щодо статистичної практики та управління проектами.

— chl

Зауваження буде оцінено дуже вдячно.

— chl

@chl: хоча я не спростував цю відповідь, я думаю, я розумію, чому хтось би спростував її. Надана вами інформація є правильною, дуже важливою та викликає думку. ЯКЩО, більшість із них (за винятком останніх двох абзаців) не відповідають на питання. В ідеалі, можна було б написати цю велику відмову в іншому місці та дати посилання на неї.

— Борис Горелик

@chl: незважаючи на те, що я сказав у своєму коментарі, я люблю вашу відповідь і голосуйте за неї

— Борис Горелик

@bgbg Дякуємо за ваш коментар. Можливо, я не відповів на питання CW. Однак я ніколи не мав наміру дати суто провокаційну відповідь. ОП запитала про потенційні "помилки та недоліки" в GDocs: Я надаю ілюстрації про те, що я знаю з Excel, визнаючи той факт, що не знаю, як це перетвориться на GDocs. Я також розумію частину питання як "які переваги використання GDocs для аналізу даних", і я просто наводив деякі аргументи проти використання електронної таблиці для масштабних проектів або аналізу на межі кровотечі (все-таки я визнав на почавши, що це буде упереджено).

— chl

"Мені також цікаво дізнатися про помилки або недоліки, з якими ви стикалися з Документами Google."

Я відповім лише на ту частину оригінального запитання. Мої дослідження з електронними таблицями Google Docs (GSheets) стосувалися математичних та статистичних функцій. Врешті-решт моя оцінка полягає в тому, що електронні таблиці Google з цього приводу значно поступаються у 2012 році порівняно зі злісним Excel 1997 року.

Свідок: Google Sheets, очевидно, оцінює erfc (x), використовуючи erfc (x) = 1-erf (x) для аргументів, для яких erf (x) близький до 1. Вони оцінюють стандартне відхилення або дисперсію за середнім квадратом мінус квадрат середнього; це погана чисельна практика. Комбінаторні функції та дискретні ймовірності, такі як poisson (n, x) = pow (x, n) * exp (-x) / n! оцінюються по факту, викликаючи непотрібне переповнення. Факториал оцінюється за допомогою коефіцієнта наближення Стірлінга по фактору, викликаючи подальше непотрібне переповнення. Кумулятивний розподіл Пуассона оцінюється простим виконанням кінцевої суми, тому властивість нормалізації втрачається в результаті округлення; те саме стосується кумулятивного біноміального розподілу. Кумулятивний нормальний розподіл повністю зіпсований; він виходить за межі [0,1]. Існує загальна втрата точності відносно реалізації тих же функцій в інших пакетах. Описи елементарних функцій, такі як округлення, часто є прихованими і не зрозумілими; інтерпретація - це здогадка.

Я задокументував ці проблеми у двох групах публікацій на форумах продуктів Google Docs:

(2011-11-13 і пізніших версій) нормадист кидає негативне значення ще https://productforums.google.com/d/topic/docs/XfBPtoKJ1Ws/

(2012-05-06 та новіших версій) Помилки та інші проблеми зі статистичними та математичними функціями в GSheets https://productforums.google.com/d/topic/docs/rxFCHYeMhrU/

— Бас Брамс
джерело

(+1) Іншими словами, здається, що ( багато! ) Статистики Google жодним чином не беруть участь у цьому проекті.

— кардинал

Єдина частина Документів Google, яку я використав, - це редактор, який дуже корисний при спільному редагуванні в режимі реального часу . Я не думаю, що git та друзі вирішують цю проблему!

— kjetil b halvorsen