Робота, яка не працює під Torque, встановлення Maui не допомогло


2

Тому я щойно встановив Torque на невеликий кластер, який ми встановлюємо, і все, здавалося, пройшло досить гладко. У мене pbs_monзапущені обчислювальні вузли та pbs_server, що працюють на головному вузлі, а pbsnodes -aз головного вузла відображаються всі вузли у "вільному" стані.

Однак, коли я подаю тривіальну роботу - навіть echo 'sleep 30'роботу - за допомогою qsubкоманди, речі просто сидять у черзі і ніколи не виконуються. У мене є чотири обчислювальні вузли і я запитую 4 вузли (не визначена пам'ять / час / ppn).

Я подумав, що, можливо, мені потрібно встановити Maui, щоб графік роботи працював добре, але заднім числом Torque повинен мати можливість самостійно планувати та виконувати завдання, чи не так? У будь-якому випадку, я встановив Maui (успішно?) На головному вузлі (робити showq показує мої завдання, що надсилаються як BLOCKED) ... Я припускаю, що він працює на головному вузлі, оскільки в іншому випадку я не зможу побачити мою qsub-представлені роботи, правда? Чи потрібно мені встановлювати Maui на кожному з обчислювальних вузлів, щоб він працював? І мені теж потрібно починати мауї з них?

Я дуже просто хочу, щоб це працювало на прості речі ... про решту ми побачимо пізніше. Я зовсім новачок у цьому і буду цінувати будь-яку допомогу, яку пропонують. Я спробував зробити те, що згадується в посібниках з установки, і, як я вже сказав, все, здавалося, спрацювало, але зараз це не так, як я очікував.

Ось результат роботи checkjobна роботі в черзі ...

  job is deferred.  Reason:  RMFailure  (cannot start job - RM failure, rc: 15043, 
  msg: 'Execution server rejected request MSG=cannot send job to mom, state=PRERUN')
  Holds:    Defer  (hold reason:  RMFailure)
  PE:  1.00  StartPriority:  1
  cannot select job 8 for partition DEFAULT (job hold active)

Я думаю, що pbs_momце працює на всіх обчислювальних вузлах:

  [root@host1 ~]# service pbs_mom status
  pbs_mom (pid 27824) is running...

  [root@host2 ~]# service pbs_mom status
  pbs_mom (pid 20164) is running...

  [root@host3 ~]# service pbs_mom status
  pbs_mom (pid 23981) is running...

  [root@host4 ~]# service pbs_mom status
  pbs_mom (pid 23996) is running...

Я також вважаю pbs_server, що працює на головному вузлі ... могла моя проблема бути в тому, що мені потрібно змінити iptables, щоб переконатися, що потрібні порти не блокуються? Знову ж таки, всі вузли виявляються вільними після pbsnodes -a...

Про всяк випадок, коли вона містить корисну інформацію ...

  [root@headnode maui-3.3.1]# pbsnodes -a
  host1
       state = free
       np = 4
       properties = dual470
       ntype = cluster
       status = 
  rectime=1317050602,varattr=,jobs=,state=free,netload=164038242,gres=,
  loadave=0.00,ncpus=4,physmem=8060460kb,availmem=17684340kb,totmem=18349604kb,
  idletime=241170,nusers=2,nsessions=9,sessions=3444 3328 3564 3574 3604 3620 
  3630 3684 6843,uname=Linux hawc1 2.6.32-71.29.1.el6.x86_64 #1 SMP Mon Jun 27 
  19:49:27 BST 2011 x86_64,opsys=linux
       mom_service_port = 15002
       mom_manager_port = 15003
       gpus = 2

  host2
       state = free
       np = 4
       properties = dual480
       ntype = cluster
       status = 
  rectime=1317050602,varattr=,jobs=,state=free,netload=106187454,gres=,
  loadave=0.00,ncpus=8,physmem=8058888kb,availmem=13819772kb,
  totmem=14219264kb,idletime=241201,nusers=1,nsessions=6,sessions=3446 
  3450 3452 3477 3479 3504,uname=Linux hawc2 2.6.32-71.29.1.el6.x86_64 
  #1 SMP Mon Jun 27 19:49:27 BST 2011 x86_64,opsys=linux
       mom_service_port = 15002
       mom_manager_port = 15003
       gpus = 2

  host3
       state = free
       np = 4
       properties = dual480
       ntype = cluster
       status = 
  rectime=1317050602,varattr=,jobs=,state=free,netload=148456196,gres=,
  loadave=0.00,ncpus=8,physmem=8058888kb,availmem=13722692kb,totmem=14219264kb,
  idletime=241161,nusers=2,nsessions=8,sessions=3482 3362 3584 3594 3624 3640 
  3650 3706,uname=Linux hawc3 2.6.32-71.29.1.el6.x86_64 #1 SMP Mon Jun 27 
  19:49:27 BST 2011 x86_64,opsys=linux
       mom_service_port = 15002
       mom_manager_port = 15003
       gpus = 2

  host4
       state = free
       np = 4
       properties = 480C2050
       ntype = cluster
       status = 
  rectime=1317050595,varattr=,jobs=,state=free,netload=154812523,gres=,
  loadave=0.01,ncpus=8,physmem=8058888kb,availmem=13715256kb,totmem=14219264kb,
  idletime=241142,nusers=2,nsessions=9,sessions=3504 3386 3590 3600 3630 3650 
  3655 3712 3829,uname=Linux hawc4 2.6.32-71.29.1.el6.x86_64 #1 SMP Mon Jun 27 
  19:49:27 BST 2011 x86_64,opsys=linux
       mom_service_port = 15002
       mom_manager_port = 15003
       gpus = 2

РЕШЕНО:

Так виходить, що iptables возився зі мною. Я відключив iptables на обчислювальних вузлах і додав правильні записи в головному вузлі до, і тепер, здається, це працює добре ... Я можу qsub відлунювати "спати 30" і бачити, як він працює. У мене є нова проблема, але я поставлю нове запитання зараз ... сподіваюся, це буде простіше!


Перевірте, pbs_momчи працює він на всіх вузлах. Схоже, це питання ...
aland

@aland: Будь ласка, перевір мою
редакцію
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.