Condor, OGE та Torque можуть усі вас туди доставити, але тільки Condor має вбудоване управління залежностями за допомогою інструменту DAGMan . DAGMan дозволяє встановити спрямований, ациклічний графік, який описує ваш робочий потік, і менеджер піклується про переміщення робочих місць у вашому робочому процесі та оцінку результатів пропуску / відмови на кожному кроці потоку. Condor є відносно платформою агностиком, що означає, що DAGMan теж є, і ви, безумовно, можете виконати один дочірній крок на AIX, коли батьків працює в Linux або Windows. DAGMan не переймається тим, де виконуються завдання, лише те, що коди виходу проходять або проходять.
Будь-які поради щодо вибору програмного забезпечення чи краще перейти з відкритим кодом чи комерційним?
З деякими застереженнями, я думаю, що вільні громади в цьому просторі варто переглянути.
OGE зараз знаходиться в дивному просторі. Більше не можна запускати створений Oracle варіант GE, і Oracle вже не надсилає код, який він записує назад до GE SCC, але існує декілька вилок коду, які намагаються надати солдату як вільні проекти з відкритим кодом. Univa, зокрема, привело заряд , наймаючи колишніх GE-розробників, щоб продовжувати працювати над відкритим джерелом, вільно доступним варіантом GE. Grid Engine має на увазі дві речі: це легко налаштувати, він може працювати з короткими (<2 хвилинами) завданнями, не надаючи багато планових накладних витрат на завдання, що уповільнює пропускну здатність. Це великий мінус - не дуже хороша підтримка Windows. Деякі з нас доклали певних зусиль, щоб перенести його на запуск Cygwin багато років тому, але це не так добре, як рідне, це точно.
Зараз Condor - мій улюблений із трьох згаданих вами технологій. Навколо Condor є сильна спільнота, і програмне забезпечення дуже зріле (зараз 20 років). Підтримка Native Windows та POSIX OS означає, що вона працює дуже добре. Вищезгаданий DAGMan - лише одна з безлічі чудових творів, які поставляються з Condor. Це може бути дотиком, складним у налаштуванні, але як тільки він працює і працює, це тверда порода. Він володіє неймовірно гнучкою мовою для виконання роботи <-> машинного узгодження та побудови правил користування вашими ресурсами. Він також підтримує динамічне забезпечення на машинах, дозволяючи робочим місцям вибирати кількість необхідних ресурсів для машин, а потім повторно рекламувати різницю як наявну. Він підтримує глобальні лічильники ресурсів, щоб ви могли обмежитися такими речами, як ліцензії на програмне забезпечення. І звичайно, він має DAGMan, який є надзвичайно потужним інструментом для управління робочим процесом. Мінус Кондора - це накладні витрати на планування короткочасних завдань, які можуть бути обтяжливими. Ви хочете, щоб завдання, які тривають довше, ніж 2 хвилини, в ідеалі, інакше планування стане великою частиною часу роботи в системі.
Крутний момент - це трохи більше ніші. Я про це знаю менше, боюся. Він більше порівнює з Grid Engine ніж Condor. Є платні додатки, які @warren згадав, які можуть розширити те, що може зробити базовий, безкоштовний Torque.
Якщо ви хочете спробувати три технології та побачити, як вони працюють з вашими конкретними робочими навантаженнями, CycleCloud може створити безпечні, віртуалізовані пули, які попередньо налаштовані за допомогою Condor, GridEngine або Torque - тому не витрачайте часу на пошук цього матеріалу. з вашого боку. Буде потрібно кілька доларів, щоб розкрутити невеликі пули кожної технології та спробувати їх з репрезентативними робочими навантаженнями. (Відмова: я працюю в Cycle Computing, ми робимо CycleCloud)