LSF作业管理系统简易使用指南

  • Post author:
  • Post category:其他




LSF简易使用指南

LSF(Load Sharing Facility)是一个被广泛使用的作业管理系统,具有高吞吐、配置灵活的优点。通过 LSF 集中监控和调度,可以充分利用计算机的CPU、内存、磁盘等资源。



1. 登陆超算服务器

命令行窗口使用ssh登陆:

>>ssh username@address

username 是申请的账号用户名,address是服务器地址

然后输入密码,即可登陆LSF

除此之外还可以使用MobaXterm或FileZilla等软件登陆



2. 写Job.s脚本

#BSUB -L /bin/sh	//指定所用的执行shell,默认调用/bin/sh
#BSUB -J Jobname	//指定作业名,JobName用于在使用bjobs查看任务时,区分不同的Job
#BSUB -n Number     //指定作业所需的进程数
#BSUB -o %J.out		//J.out是程序运行结果的标准输出文件,J就是前面的JobName
#BSUB -e %J.err		//同上,错误输出文件
#BSUB -R span[ptile=number]	//请求使用每个节点中的number个核数
#BSUB -m "c07n13"	//指定提交的节点,如果提交到多个节点,节点之间用space分开
#BSUB -q dynamo		//指定提交的队列,动力学中心使用dynamo
mpirun  -np 32 ./mhdcase0H2_cylinder	//mpirun指定使用并行运算,-np是使用的核数,这里是32,后面的是可执行文件的相对路径文件名



3. 常用指令

提交的作业一般都有多个文件夹,文件数量很多,因此编译程序时一般都事先写好makefile文件,直接在命令行输入make指令,就一键编译完成了。


bsub < Job.s

一定注意不能在超算上直接mpirun -np number ./program 提交任务,一定要使用bsub指令提交作业


bjobs

查看当前自己提交的所有作业

bjobs -l JOBID 加上-l和某个作业的JOBID,可以查看该作业的详细信息


bkill JOBID

中止作业,杀死JOBID对应的作业,切记不要删错作业!!!


bpeek JOBID

显示作业的标准输出,监视作业运行


bhosts

查看节点使用情况,如果RUN列是0,就表示没有该节点没有人使用,MAX是该节点的进程数,status为closed就是不可用状态,Host_name就是节点名

HOST_NAME          STATUS       JL/U    MAX  NJOBS    RUN  SSUSP  USUSP    RSV

https://www.ibm.com/support/knowledgecenter/en/SSWRJV_10.1.0/lsf_welcome/lsf_kc_cmd_ref.html

IBM的command指令集详解↑↑↑



版权声明:本文为xiaoyami原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。