关于集群作业管理系统 Maui,PBS和Torque

Maui集群调度器是Moab集群套件前身,是一个开放源码的集群和超级计算机作业调度器(scheduler)。 PBS是一个用于作业分配的调度器(scheduler),其主要任务是分配批作业计算任务到现有的计算资源上。 以下版本的PBS系统目前可用: OpenPBS:没有技术支持的原始开源版本; PBSPro(PBS专业版):由Altair Engineering发行和支持的商业版本; Torque:衍生的OpenPBS,由Cluster Resources Inc.发展,支持和维护

2009年6月18日星期四

Altair PBS Professional介绍

PBS Professional是一个工作量管理软件平台,它的本质在于面对网格及面向需求的计算环境。对于大部分面向网格的软件工具,公用程序和全世界集群环境,PBS解决方案是久经验证和强健的,即使在复杂的计算环境中。

全世界有1600个站点资源管理者和系统管理员使用PBS Professional来简单和自动化的进行日程安排和管理负载集群,SMP和混合的架构。PBS Professional可以有效和完善的组织企业各处的资产,能见和利用的计算机资源。


向今天的四核发起挑战

在过去的几年里,设计者和微处理器专家开始打造两个或更多的处理器在单一元件中,介绍多核技术—同全世界的软件公司发起一个挑战。软件卖主仍然贯彻和顽固的序列号模式,限定用户评估和采用需求的网格计算。

应工业需求与用户需求,Altair最近提出一个创新的软件许可方式,允许PBS Professional用户可以分享他们企业的全部架构,只需求购买实际使用软件的许可。

PBS Pro(PBS Professional)是一套工作负载及队列排序控管的软件,而软件主要的功能为以下几点:

1.使用者管理:
每个使用者可以使用的资源之分配,以及其对系統存取权限的管理控制

2.Cluster的管理:
管理各node目前的状态,以及监控,这样才能在Job需要执行时,可以立刻找出可用的资源,也就可以避免Job在等待执行,卻有资源闲置的情況发生.

3.Job的管控:
Job的排序管理控制,依据各Job的优先权,并且提供依系統硬件架构及系統资源状况,进行自动工作负载调整的机制;对执行中于单一或跨多重节点的工作,可进行暂停(suspend)/回复(resume)之管理控制动作;对异常执行的工作,可进行刪除(delete)或重新执行(requeue)等管理控制动作。

PBS pro的组成部分包括了以下四个方面:

‧以命令行或图形方式,让User提交刪除查询监控工作

‧pbs_server:

接收,产生管理及保护使用者的批次工作

‧JobScheduelr:

负责排序工作,资源分配及节点管理

‧pbs_mom:

接收pbs_server给予的排序工作,并呼叫对应的程序来执行,完成后将结果回传给pbs_server


PBS特点:

1. 具有图形及命令行二种模式。

2. Job Priority之管理控制:

使用者可自订工作的优先順序;优先权可由Job所需的运算资源或所需的运算时间等等因素来考虑。

3. 广泛的平台支持:

除了Linux外,也支持Windows及apple的OS-X环境。

4. 跨系統排队,ACL式的安全管控机制:

任何授权之用户可进行透明式工作安排,工作可通过任何用户端系统和服务器来进行提交,在如此弹性的机制下,就需要搭配ACL的控制,提供对个別使用者所能使用的资源数量,进行限制及管理控制的能力;提供ACL式的安全管理控机制,管理者可允许或拒绝使用者对系统的存取权限,可依系統、群组個人的方式,加以设定。

5. 支持Job Arrays:

Job Arrays是一 种将相关工作分组的机制,允许使用者提交,查询,修改以及显示一个集合的工作。这个新的功能对于一些必須提交以及管理大量相关工作的user来说是相当实用的。

6. 全业界的資源分享:

BS不会要求工作只能在某一特定电脑上执行,使用者在执行工作时,可以以第一个符合他们资源要求的系统来进行,可避免有电脑搁置不用。

7. 預留运算资源:

对使用者之工作,提供于所需時段預留(reserve)所需计算資源(至少包括:CPU时间、内存(real memory)使用量、使用CPU之个数、工作执行时间长度(wall clock)、使用节点(node)之个数、计算节点的类型等的设定支援能力

没有评论: