项目背景
为了不断适应今后的研究需求和强化自身的技术水平,提高自主计算能力,在计算平台搭建过程中购置运行稳定、技术先进、性能优异、易于扩充和管理的高性能计算环境来满足计算需求。
方案设计
根据高性能计算平台的实际需求,我们选择了基于企业级刀片服务器系统的高性能计算集群,具有可自伸缩、高度可管理、高可用、高性价比等诸多优点,解决了大规模集群部署、高效能计算、跨平台管理、跨操作系统管理、系统软硬件运行状态监控等混合平台应用等一系列问题,是目前应用最多的架构。
高性能计算集群系统包括:
- 管理调度:管理节点、IO节点
- 计算节点:标准CPU节点、胖计算节点、GPU图形服务器
- 互联网络:硬件管理网络、集群管理网络、计算和存储网络
- 存储系统:/home数据存储
- 集群软件系统:Linux操作系统、集群管理软件、作业调度软件,并行文件系统。
如图所示,计算节点部分通过多个节点协同计算,共同负责数据处理和计算任务;节点通过网络连接共享存储系统,从而为计算节点提供高速存储读写服务;管理节点负责集群系统监控管理、系统部署、计算作业的分发与调度;计算网络由高速InfiniBand交换机组成,提供计算节点之间的数据交换;监控与管理网络连接所有节点的管理模块,实现集群系统的整体监控管理与维护,登陆节点同时连接到集群内网和前端网络,为用户提供远程连接接入服务。
用户收益
1. 根据用户对解决大问题和同时运行多个中小型任务的综合需求,优化系统资源配置比例,实现最大的应用灵活性。
2. 高性能计算集群在设计上充分考虑到可扩展性需求,提供具有最高可伸缩性的系统,并保护用户现有的投资。
3. 建立统一高效的资源管理系统,对所有计算机系统资源进行统一监控与管理,以集中统一的管理方式,高效率、反应灵敏的技术服务机制,标准化、自动化的管理流程达到提供优质的资源管理服务,更好的为业务发展服务。