LSF简易使用指南
LSF(Load Sharing Facility)是一个被广泛使用的作业管理系统,具有高吞吐、配置灵活的优点。通过 LSF 集中监控和调度,可以充分利用计算机的CPU、内存、磁盘等资源。
1. 登陆超算服务器
命令行窗口使用ssh登陆:
>>ssh username@address
username 是申请的账号用户名,address是服务器地址
然后输入密码,即可登陆LSF
除此之外还可以使用MobaXterm或FileZilla等软件登陆
2. 写Job.s脚本
#BSUB -L /bin/sh //指定所用的执行shell,默认调用/bin/sh
#BSUB -J Jobname //指定作业名,JobName用于在使用bjobs查看任务时,区分不同的Job
#BSUB -n Number //指定作业所需的进程数
#BSUB -o %J.out //J.out是程序运行结果的标准输出文件,J就是前面的JobName
#BSUB -e %J.err //同上,错误输出文件
#BSUB -R span[ptile=number] //请求使用每个节点中的number个核数
#BSUB -m "c07n13" //指定提交的节点,如果提交到多个节点,节点之间用space分开
#BSUB -q dynamo //指定提交的队列,动力学中心使用dynamo
mpirun -np 32 ./mhdcase0H2_cylinder //mpirun指定使用并行运算,-np是使用的核数,这里是32,后面的是可执行文件的相对路径文件名
3. 常用指令
提交的作业一般都有多个文件夹,文件数量很多,因此编译程序时一般都事先写好makefile文件,直接在命令行输入make指令,就一键编译完成了。
bsub < Job.s
一定注意不能在超算上直接mpirun -np number ./program 提交任务,一定要使用bsub指令提交作业
bjobs
查看当前自己提交的所有作业
bjobs -l JOBID 加上-l和某个作业的JOBID,可以查看该作业的详细信息
bkill JOBID
中止作业,杀死JOBID对应的作业,切记不要删错作业!!!
bpeek JOBID
显示作业的标准输出,监视作业运行
bhosts
查看节点使用情况,如果RUN列是0,就表示没有该节点没有人使用,MAX是该节点的进程数,status为closed就是不可用状态,Host_name就是节点名
HOST_NAME STATUS JL/U MAX NJOBS RUN SSUSP USUSP RSV
https://www.ibm.com/support/knowledgecenter/en/SSWRJV_10.1.0/lsf_welcome/lsf_kc_cmd_ref.html
IBM的command指令集详解↑↑↑