Образ VM для проектів з наукових даних


24

Оскільки є чимало інструментів, доступних для завдань із вивчення даних, і це громіздко встановити все і створити досконалу систему.

Чи є зображення ОС Linux / Mac OS з Python, R та іншими інструментами з відкритим вихідним кодом, встановленими та доступними для того, щоб люди могли їх використовувати відразу? Ідеально підійде Ubuntu або легка ОС з останньою версією Python, R (включаючи IDE) та інші інструменти візуалізації даних з відкритим кодом. Я не натрапив на жодного у своєму швидкому пошуку в Google.

Будь ласка, дайте мені знати, чи є хтось із вас, чи хтось із вас створив його для себе? Я припускаю, що деякі університети можуть мати власні образи ВМ. Будь ласка, поділіться такими посиланнями.


Хоча це питання можна розглядати як прикордонний офтопік, я якось вважаю його гарним для сайту IMHO.
Шон Оуен

3
Окрім дивовижних коментарів, є (дещо старший) допис у блозі, де порівнюються декілька різних рішень: jeroenjanssens.com/2013/12/07/…
LauriK

Відповіді:


13

Є ще один популярний останнім часом вибір: докер ( https://www.docker.com ). Docker - це контейнер і дозволяє вам створювати / підтримувати робоче середовище дуже легко і швидко.

Сподіваюсь, що вам допоможе.


12

Якщо ви шукаєте віртуальний комп'ютер із попередньо встановленою купою інструментів, спробуйте Data Science Toolbox .


Цікавий проект (+1). Дякую, що поділився! Це може бути простіше використовувати його, ніж з'ясувати, чому Docker не хотів працювати на своєму ноутбуці Win 7 (див. Вище). Однак, все-таки може бути хорошою ідеєю дізнатися Докер, враховуючи останні тенденції.
Олександр Блех

Приємна інформація. Порівнюючи інструменти vm, йому потрібно певний час, щоб зрозуміти, як працює докер. Якщо ви вже знайомі з vm, непогано використовувати цю панель інструментів. Дякую, що поділився.
фанат

Дякую, що поділився. Це, безумовно, цікаво. Але я не бачу, як хтось може ним користуватися без графічного інтерфейсу. Мені знадобиться R-studio і PyCharm для Python (ноутбук iPython є). Мені потрібно буде трохи пограти, щоб повністю зрозуміти це.
ЖанВуда

1
@AleksandrBlekh Мені вдалося нарешті змусити докера працювати на моїй машині Windows 7, відновивши сертифікати, docker-machine regenerate-certsсподіваюся, що це допомагає :)
RK

@RK: Дякую, що повідомили мені. Я спробую, коли я отримаю шанс (це може зайняти деякий час, хоча, як очікують вирішення деякі важливіші питання).
Олександр Блех

8

Хоча зображення Docker зараз більш модні, я особисто вважаю, що технологія Docker не є зручною для користувачів, навіть для досвідчених користувачів. Якщо ви добре використовуєте немісцеві зображення VM і можете використовувати веб-сервіси Amazon Web Services (AWS) EC2 , розгляньте зображення, орієнтовані на R, для проектів з наукових даних, попередньо створених Луїсом Аслеттом. Зображення містять зовсім недавні, якщо не останні, версії Ubuntu LTS , R та RStudio Server . Ви можете отримати доступ до них тут .

Крім основних компонентів, які я перераховував вище, зображення містять також багато вбудованих корисних інструментів для вивчення даних. Наприклад, зображення підтримують LaTeX, ODBC, OpenGL, Git, оптимізовані числові бібліотеки тощо.


Дуже дякую, що згадуєте про цей варіант. Я обов’язково спробую. Однак я хочу, щоб зображення, яке точно подібне до цього AMI, але могло працювати з VirtualBox на моєму ноутбуці.
JeanVuda

Нещодавно я переглянув підручник про Докера, перевірив його і зрозумів, що його легко зрозуміти. Яку частину ви не знайшли для користувача?
Роберт Сміт

@JeanVids: Вас дуже вітають. Я розумію ваше бажання мати місцевий VM - саме тому я спробував Docker на своєму комп’ютері. Я повідомляю вас, якщо знайду зображення VM VirtualBox, зосереджене на науці даних (сподіваюся, на основі R).
Олександр Блех

1
@RobertSmith: Я розумію. Можливо, проблема полягала в тому, що я намагався налаштувати його на своїй машині Windows. У всякому разі, я спробую це спробувати через деякий час. Дякуємо за ваші коментарі.
Олександр Блех

1
@AleksandrBlekh Так, це може бути основною проблемою. На жаль, існує багато проблем при установці подібних речей у Windows.
Роберт Сміт


5

Сьогодні я використав це сховище з https://github.com/sequenceiq/docker-spark та створив його за допомогою docker. це іскра для побудови зображень докера, заснована на зображенні hadoop того самого власника. якщо ви використовуєте іскру, у неї є пітон api під назвою pyspark http://spark.apache.org/docs/latest/api/python/

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.