关于集群作业管理系统 Maui,PBS和Torque

Maui集群调度器是Moab集群套件前身,是一个开放源码的集群和超级计算机作业调度器(scheduler)。 PBS是一个用于作业分配的调度器(scheduler),其主要任务是分配批作业计算任务到现有的计算资源上。 以下版本的PBS系统目前可用: OpenPBS:没有技术支持的原始开源版本; PBSPro(PBS专业版):由Altair Engineering发行和支持的商业版本; Torque:衍生的OpenPBS,由Cluster Resources Inc.发展,支持和维护

2009年6月28日星期日

TORQUE与Maui的安装、设置及使用(1)

TORQUE 和Maui 可以从http://www.clusterresources.com 上下载。以下仅是粗略配置,详细配置请参考相关手册:
• TORQUE:http://www.clusterresources.com/torquedocs21/
• Maui:http://www.clusterresources.com/products/maui/docs/mauiusers.shtml

1)服务节点安装TORQUE

这里假设服务节点的机子名为kd50,其中一个计算节点的名字为node0101。
root@kd50# tar zxvf torque-2.2.1.tar.gz
root@kd50# cd torque-2.2.1
root@kd50# ./con gure {pre x=/opt/torque-2.2.1 {with-rcp=rcp
上面–with-rcp=rcp 设置为利用rsh 协议在节点间传输文件,也可设置为–withrcp=scp 以利用scp 协议进行传输。利用rcp 或者scp 传输需要配置节点间无须密码访问,具体请参看相关文档。
root@kd50# make
root@kd50# make install


2)服务节点初始化并设置TORQUE
将TORQUE 的可执行文件所在的目录放入系统的路径中,修改/etc/profile:

TORQUE=/opt/torque-2.2.1
MAUI=/opt/maui-3.2.6p20
if [ ”`id -u`” -eq 0 ]; then
PATH=”/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin:”
PATH=$PATH:$TORQUE/bin:$TORQUE/sbin:$MAUI/bin:$MAUI/sbin
else
PATH=”/usr/local/bin:/usr/bin:/bin:/usr/games:$TORQUE/bin:$MAUI/bin”
PATH=$PATH:$TORQUE/bin:$MAUI/bin
fi

上面将同时设置Maui 的路径,如在这里已经设置了,并且Maui 安装路径为上面的话,后面就无需再设置Maui 的路径。

修改后使设置的环境变量生效:
source /etc/profile

将root 设置为TORQUE 的管理帐户:
root@kd50# ./torque setup root

在/var/spool/torque/server priv/nodes 中添加计算节点的机器名,类似:

kd50
node0101

如果服务节点不参与计算的话,需要将服务节点的机器名去掉。如果node0101 上有两个处理单元,就设置为node0101 np=2。
如果/var/spool/torque 下的目录spool 和undelivered 的权限不是drwxrwxrwt 的话,需要chmod 1777 spool undelivered。

创建作业队列:
root@kd50# pbs server -t create
root@kd50# qmgr

输入下面Qmgr: 后的内容,将设置一个默认队列dque:
Qmgr: create queue dque queue type=execution
Qmgr: set server default queue=dque
Qmgr: set queue dque started=true
Qmgr: set queue dque enabled=true
Qmgr: set server scheduling=true

可以通过下面的代码来检查pbs server 是否正常运行,若pbs server 没有运行,
则首先运行该程序,然后执行下面的代码:
# shutdown server
qterm -t quick
# start server
pbs server
# verify all queues are properly con gured
qstat -q
# view additional server con guration
qmgr -c 'p s'
# verify all nodes are correctly reporting
pbsnodes -a
# submit a basic job
echo ”sleep 30” j qsub
4
# verify jobs display
qstat

3) 计算节点上安装TORQUE

先在服务节点上的编译TORQUE 的目录下执行下面命令生成所需要的包:
root@kd50# make packages

该命令执行之后一共产生五个包,分别为:
• torque-package-clients-linux-i686.sh
• torque-package-devel-linux-i686.sh
• torque-package-doc-linux-i686.sh
• torque-package-mom-linux-i686.sh
• torque-package-server-linux-i686.sh

然后将这些包传送给机群中的所有计算节点并在各计算节点上执行安装,比如:
root@node0101# ./torque-package-clients-linux-i686.sh {install

4) 计算节点配置TORQUE
/var/spool/torque 是TORQUE 的配置目录, 只要在该目录下创建一个文件server name,其内容是服务节点的机器名。
对于NFS 文件共享系统来说,还必须告诉TORQUE 这种共享的用户目录,编辑/var/spool/torque/mom priv/config,其内容类似:

$pbsserver kd50 # note: hostname running pbs server
$logevent 255 # bitmap of which events to log
$usecp kd50:/home /home

其中$pbsserver 后指定服务节点的主机名,$usecp 后面的表示的共享home。

在/etc/profile 中设置环境变量:

TORQUE=/opt/torque-2.2.1
if [ ”`id -u`” -eq 0 ]; then
PATH=”/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin:”
PATH=$PATH:$TORQUE/bin:$TORQUE/sbin
else
PATH=”/usr/local/bin:/usr/bin:/bin:/usr/games”
PATH=$PATH:$TORQUE/bin
fi

source /etc/profile 后,可以直接运行pbs mom 启动计算节点的守护进程。

-------------------------------------------------------------------------------
《资源管理软件TORQUE 与作业调度软件Maui 的安装、设置及使用》,李会民(hmli@ustc.edu.cn)中国科学技术大学网络信息中心

没有评论: