高性能计算(缩写 HPC) 指通常使用很多处理器(作为单个机器的一部分)或者某一集群中组织的几台计算机(作为单个计 算资源操作)的计算系统和环境。有许多类型的 HPC 系统,其范围从标准计算机的大型集群,到高度专用的硬件。
大多数基于集群的 HPC 系统使用高性能网络互连,比如那些来自 InfiniBand 或 Myrinet 的网络互连。基本的网络拓扑和组织可以使用一个简单的总线拓扑,在性能很高的环境中,网状网络系统在主机之间提供较短的潜伏期,所以可改善总体网络性能和传输速率。
高性能计算拓扑结构,从硬件结构上,高性能计算系统包含计算节点、IO节点、登录节点、管理节点、高速网络、存储系统等组成。
FLOPS 是指每秒浮点运算次数,Flops 用作计算机计算能力的评价系数。根据硬件配置和参数可以计算出高性能计算集群的理论性能。
Linapck 测试:采用主元高斯消去法求解双精度稠密线性代数方程组,结果按每秒浮点运算次数(flops)表示。
HPL:针对大规模并行计算系统的测试,其名称为 HighPerformanceLinpack(HPL),是第一个标准的公开版本并行 Linpack 测试软件包。用于 TOP500 与国内 TOP100 排名依据。
同构计算节点是指集群中每个计算节点完全有 CPU 计算资源组成,目前,在一个计算节点上可以支持单路、双路、四路、八路等 CPU 计算节点。
异构计算技术从 80 年代中期产生,由于它能经济有效地获取高性能计算能力、可扩展性好、计算资源利用率高、发展潜力巨大,目前已成为并行/分布计算领域中的研究热点之一。异构计算的目的一般是加速和节能。目前,主流的异构计算有:CPU+GPU,CPU+MIC,CPU+FPGA
PVFS:Clemson 大学的并行虚拟文件系统(PVFS) 项目用来为运行 Linux 操作系统的 PC 群集创建一个开放源码的并行文件系统。PVFS 已被广泛地用作临时存储的高性能的大型文件系统和并行 I/O 研究的基础架构。作为一个并行文件系统,PVFS 将数据存储到多个群集节点的已有的文件系统中,多个客户端可以同时访问这些数据。
Lustre,一种平行分布式文件系统,通常用于大型计算机集群和超级电脑。Lustre 是源自 Linux 和 Cluster 的混成词。于 2003 年发布 Lustre 1.0。采用 GNU GPLv2 开源码授权。
目前,几大主流服务器厂商都提供了自己的集群管理系统,如浪潮的 Cluster Engine,曙光的 Gridview,HP 的 Serviceguard,IBM Platform Cluster Manager 等等。集群管理系统主要提供一项的功能:
1) 监控模块:监控集群中的节点、网络、文件、电源等资源的运行状态。动态信息、实况信息、历史信息、节点监控。可以监控整个集群的运行状态及各个参数。
2) 用户管理模块:管理系统的用户组以及用户,可以对用户组以及用户进行查看,添加,删除和编辑等操作。
3) 网络管理模块:系统中的网络的管理。
4) 文件管理:管理节点的文件,可以对文件进行上传、新建、打开、复制、粘贴、重命名、打包、删除和下载等操作。
5) 电源管理模块:系统的自动和关闭等。
6) 作业提交和管理模块:提交新作业,查看系统中的作业状态,并可以对作业进行执行和删除等操作。还可以查看作业的执行日志。
7) 友好的图形交互界面:现在的集群管理系统都提供了图形交互界面,可以更方便的使用和管理集群。
集群管理系统中最主要的模块为作业调度系统,目前,主流的作业调度系统都是基于PBS 的实现。PBS(Portable Batch System)最初由 NASA 的 Ames 研究中心开发,主要为了提供一个能满足异构计算网络需要的软件包,用于灵活的批处理,特别是满足高性能计算的需要,如集群系统、超级计算机和大规模并行系统。
PBS 的主要特点有:代码开放,免费获取;支持批处理、交互式作业和串行、多种并行作业,如 MPI、PVM、HPF、MPL;PBS 是功能最为齐全, 历史最悠久, 支持最广泛的本地集群调度器之一。
PBS 的目前包括 openPBS, PBS Pro 和 Torque三个主要分支. 其中 OpenPBS 是最早的 PBS 系统, 目前已经没有太多后续开发, PBS pro 是PBS 的商业版本, 功能最为丰富. Torque 是 Clustering 公司接过了 OpenPBS, 并给与后续支持的一个开源版本。PBS 主要有如下特征:
1) 易用性:为所有的资源提供统一的接口,易于配置以满足不同系统的需求, 灵活的作业调度器允许不同系统采用自己的调度策略。
2) 移植性:符合 POSIX 1003.2 标准,可以用于 shell 和批处理等各种环境。
3) 适配性:可以适配与各种管理策略,并提供可扩展的认证和安全模型。支 持广域网上的负载的动态分发和建立在多个物理位置不同的实体上的虚 拟组织。
4) 灵活性:支持交互和批处理作业。torque PBS 提供对批处理作业和分散的计算节点(Compute nodes)的控制。
消息传递接口(Message Passing Interface, MPI),MPI 是一种基于消息传递的并行编程技术。MPI 程序是基于消息传递的并行程序。消息传递指的是并行执行的各个进程具有自己独立的堆栈和代码段,作为互不相关的多个程序独立执行,进程之间的信息交互完全通过显示地调用通信函数来完成。
1) MPI 是一个库,而不是一门语言。
2) MPI 是一种标准或规范的代表,而不特指某一个对它的具体实现,迄今为止,所有的并行计算机制造商都提供对 MPI 的支持,可以在网上免费得到 MPI 在不同并行计算机上的实现,一个正确的 MPI 程序可以不加修改地在所有的并行机上运行。
3) MPI 是一种消息传递编程模型,并成为这种编程模型的代表。事实上,标准 MPI虽然很庞大,但是它的最终目的是服务于进程间通信这一目标。常见 MPI 类型有以下几类:
OpenMPI 是一种高性能消息传递库,它是 MPI-2 标准的一个开源实现,由一些科研机构和企业一起开发和维护。因此,OpenMPI 能够从高性能社区中获得专业技术、工业技术和资源支持,来创建最好的 MPI 库。OpenMPI 提供给系统和软件供应商、程序开发者和研究人员很多便利。易于使用,并运行本身在各种各样的操作系统,网络互连,以及一批/调度系统。
下载地址:http://www.open-mpi.org/
Intel MPI 是 Intel 编译器中支持的 MPI 版本。
MPICH 是 MPI 标准的一种最重要的实现,可以免费从网上下载。MPICH 的开发与 MPI规范的制订是同步进行的,因此 MPICH 最能反映 MPI 的变化和发展。MPICH 的开发主要是由 Argonne National Laboratory 和 Mississippi State University 共同完成的,在这一过程中 IBM 也做出了自己的贡献,但是 MPI 规范的标准化工作是由 MPI 论坛完成的。MPICH 是 MPI 最流行的非专利实现,由 Argonne 国家实验室和密西西比州立大学联合开发,具有更好的可移植性。相关下载地址:http://www.mpich.org/
MVAPICH 是 VAPI 层上 InfiniBand 的 MPI 的缩写,它充当着连接消息传递接口(MPI 和被称作 VAPI 的 InfiniBand 软件接口间的桥梁,也是 MPI 标准的一种实现。InfiniBand 是“无限带宽”的缩写,这是一种新的支持高性能计算系统的网络架构。OSU(Ohio State University)超级计算机中心的科学家彼特于 2002 年开发出 MVAPICH 前,InfiniBand 和 MPI 是不兼容的。