Хто використовує R з багатоядерним, SNOW або пакетом CUDA для обчислювальних ресурсів?


16

Хто з вас на цьому форумі використовує "> R з багатоядерними , сніговими пакетами або CUDA , тому для розширених обчислень, які потребують більшої потужності, ніж процесор робочої станції? На якому апараті ви обчислюєте ці сценарії? Вдома / на роботі чи у вас є доступ до центру обробки даних десь?

Основою цих питань є наступне: я зараз пишу свою магістратуру. теза про R та високоефективні обчислення та потребують глибоких знань про те, хто насправді використовує R. Я читав, що R мав 1 мільйон користувачів у 2008 році, але це більш-менш єдина статистика користувачів, яку я міг знайти на цю тему - тому сподіваюся на вашу відповіді!

З повагою Генріх


Можливий пов'язаний з цим питання, stats.stackexchange.com/questions/825 / ... .
chl

Відповіді:


6

Я біолог, який моделює вплив міжрічних кліматичних змін на динаміку популяції декількох мігруючих видів. Мої набори даних дуже великі (просторово інтенсивні дані), тому я запускаю свій R-код, використовуючи multicoreна серверах Amazon EC2. Якщо моє завдання особливо ресурсомістке, я виберу екземпляр High Quadruple Extra Large, який постачається з 26 блоками процесора, 8 ядрами і 68 Гб оперативної пам’яті. У цьому випадку я запускаю одночасно 4-6 скриптів, кожен з яких працює через досить великий набір даних. Для менших завдань я вибираю сервери з 4-6 ядрами і приблизно 20 гігами оперативної пам’яті.

Я запускаю ці екземпляри (як правило, точкові екземпляри, оскільки вони дешевші, але можуть припинятися в будь-який час, коли поточна ставка перевищує ту, яку я вирішив заплатити), запускаю сценарій протягом декількох годин, а потім припиняю екземпляр, коли мій сценарій закінчиться. Що стосується зображення машини (Amazon Machine Image), я взяв когось інший встановити Ubuntu, оновив R, встановив свої пакунки та зберег це як приватний AMI на моєму просторі зберігання S3.

Моя персональна машина - це двокорректна книга MacBook Pro, і їй важко відправляти багатоядерні дзвінки. Якщо у вас є інші питання, не соромтеся надіслати електронний лист.


Чи можете ви сказати, який розмір вашого набору даних?
suncoolsu

Звичайно.
Набори

4

Оскільки ви запитуєте, я використовую пакет foreach з багатоядерним бекендом. Я використовую це, щоб розділити незручно паралельне навантаження на кілька ядер на одній коробці Nehalem з великою кількістю оперативної пам’яті. Це досить добре справляється із завданням, що знаходиться під рукою.


Дякую за вашу відповідь! Ви робите обчислення для своєї роботи / наукових досліджень або для власних проектів на своєму ПК?
Генріх

Це робиться в комерційній обстановці. Для цього я використовую єдину коробку Intel з 32 ГБ оперативної пам’яті та дисками RAIDed (основна складність полягає в безлічі даних, а сама обробка не дуже обтяжена.)
NPE

Добре @aix, як часто ви виконуєте ці обчислення. Ви бокс працюєте цілий день чи більше простоюєте?
Генріх

Швидке запитання до @NPE: в якій системі ви зберігаєте дані? чи використовуєте ви резервну базу даних?
nassimhddd

3

Я працюю в академії і використовую багатоядерні для деяких важких орієнтирів алгоритмів машинного навчання, в основному на нашому Opteron Sun Constellation та деяких менших кластерах; вони також є досить бентежними паралельними проблемами, тому головна роль мультикорену полягає у поширенні обчислень по вузлу без примноження використання пам'яті.


У нас, у Гамбурзі, завжди виникає проблема, що час очікування на академічні центри обробки даних дійсно довгий. це те саме?
Генріх

@Heinrich Я працюю у своєрідному академічному центрі даних, тому у мене немає таких проблем (- Серйозно, у Варшаві час наукових процесорів перевищує попит, тому я вважаю, що отримати грант досить просто. Я думаю, ви повинні спробувати D-Grid або EGEE, мій досвід полягає в тому, що сітки в цілому дуже мало використовуються

Ой. Це цікаво. Чи знаєте ви, в яких видах бізнесу R використовується в цих умовах?
Генріх

2

Я використовую сніг та снігопад для паралелізації курсу на кластерах HPC та CUDA для тонкої паралельної обробки даних. Я в епідеміології займаюся моделюванням передачі хвороби. Тому я використовую і те, і інше.


Дякуємо за вашу інформацію. Що ви маєте на увазі під паралелізацією курсу?
Генріх

Паралелізація курсу буде чимось на зразок незалежних прогонів зміни MCMC., Тобто дуже великих патронів, які можна виконувати паралельно без синхронізації потоків. Прикладом тонкого зерна є обчислення ймовірності, коли обчислення можна проводити в точках даних самостійно.
Ендрю Редд
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.