部署Windows HPC,并实现在Ansys 中向Win HPC提交作业

最近微软发布了windows server2025,界面非常不错,看着windows server2019的界面实在难受,于是乎就下了决心,把现有的windows server2019+ HPC Pack 2019升级到windows server2025,顺便把自己摸索出的经验分享一下,希望能帮助有需要的小伙伴。

教程有点长,分为以下几个部分:

1、推荐书目

2、什么是HPC?

3、什么自己做HPC?

4、Windows HPC的特点?

5、HPC的作用

6、微软HPC部署

1、推荐书目

把推荐书目放到最前面,是为了方便重度依赖HPC的用户进一步深入学习微软HPC,尝鲜的小伙伴可以直接跳过。

(1)《微软高性能计算服务器》徐明强

这本书可以说是微软HPC的开山之作,内容除了MPI以外也是相当易懂。缺点是针对windows server2008,示例也用不上(实际也能用,就是麻烦些)。

这本书有电子版的可以下载。

(2)《Windows Server 2012系列课程》王进

这是一套视频教程,在B站能找到。培训的内容是windows server2012的运维知识。如果有小伙伴需要深究“域”、“证书服务”、“证书颁发机构”、“活动目录”等内容,可以看一下。

这个视频本人有学习时记得笔记,可以供参考。

(3)《HPC入门》

这是一本关于HPC介绍的书,内容简单易懂。

这本书有电子版的可以下载,本人也翻译了一个中文版,供参考。

 

(4)《Ansys Remote Solve Manager (RSM)》手册

根据自己的经验,目前对微软HPC支持最好的有限元软件是Ansys,这个手册介绍了如何配置微软HPC,并提交作业。

本人翻译了一个中文版,供参考。

2、什么是HPC?

HPC的全称是High Performance Computing,即高性能计算。从1996年开始,实现高性能计算的方法是并行计算,就是用很多台计算机同时计算一个事情,每个计算机计算其中的一部分,其核心是MPI(Message Passing Interface,信息传递接口)。MPI标准定义了一组编程接口,可以在进程之间通信,能实现并行编程。

目前国内的超级计算机,如“太湖之光”等,都是基于MPI运行。历史上也有不少大公司推出了自己的MPI实现,如IBM Platform MPI(PMPI,最新版本V9,已经停止维护,Ansys支持)、Intel MPI(最新2021版,Ansys支持)、Microsoft MPI(MS-MPI,最新V10,2023年,已开源)、MPI CH2(开源)等,其中免费或开源的MPI其并行的节点数量可能会有限制。

为了实现多节点并行计算,除了MPI外,还需要调度器软件,对计算资源(如处理器核心、内存等)进行管理和分配。不少公司也开发了相应的作业调度系统,如PBS (Portable Batch System, Altair,用于Linux系统)、LSF(Load Sharing Facility,由IBM开发,用于Linux系统),此外还有其他开源调度器,如Sun Microsystem(Sun Grid Engine)等。

2004年,微软成立了高性能计算产品组,比尔·盖茨的目标是“让每个科技人员都有高性能计算机”。《微软高性能计算服务器》这本书的作者徐明强,就是在2004年加入微软的。微软在美国阿冈国家实验室开放源代码的MPI2的基础上开发了MS-MPI 标准,其最大特点是与微软HPC Pack、Windows Server无缝连接,大大简化了部署HPC的步骤。

3、什么自己做HPC?

主要原因还是穷,各种云端的计算资源太贵不适合个人用。有时候一台配置稍好的虚拟机租金都赶上一台配置不错的PC了。

另外,随着电脑升级,淘汰下的旧电脑也可以废物利用,继续发挥余热。

4、Windows HPC的特点

 

部署Windows HPC,并实现在Ansys 中向Win HPC提交作业的图1

   Windows 高性能计算服务器,提供了HPC Pack 软件开发工具包、作业调度系统和管理系统。其最大的特点是与windows server深度融合,可以快速部署HPC。大多数进行数值模拟的小伙伴,可能不熟悉Linux,只能简单操作windows,这种情况下使用微软HPC能大大降低难度。

 部分有限元软件(如Marc),也提供了客户端软件,可以在多台计算机上并行,但是这个只是“松散”的耦合,各计算机都是基于家用windows,在稳定性、安全性上远不如windows server,也不如域架构下的登录认证方便。另外,大部分有限元软件,也提供手动并行,需要自己安装MPI,设置“host”文件(设置每台计算机的名称、核心数量、工作目录)和共享的工作目录,使用起来非常难用。

5、HPC在数值模拟中的作用

HPC在本质上是属于“用空间换时间”,通过多计算机并行来减少计算时间。在数值模拟过程中,特别是非线性计算时,采用单机计算时间可能会超过一周,使用多台计算机就会缩短计算时间。

 要充分发挥HPC的性能,有限元软件对HPC(包括GPU)的支持也很重要。目前在各大有限元软件中Ansys对微软HPC的支持最好。

6、微软HPC部署

  先说说自己的HPC规划,共有四台计算机,具体功能分配情况如下:

存储节点:使用1台较旧的计算机,CPU是i7-8700k,主板是华硕(华硕网卡通常采用Intel芯片组,在server以下无法正常安装驱动),使用24盘位存储机箱(带背板),1张LSI 直通卡(二手),1张联想扩展卡(二手),电源为台达 650W金牌电源。两块10T希捷企业硬盘(全新白盘),在windows server中使用存储池,镜像保存数据,通过共享服务提供网络存储。

计算节点1:使用1台较新的计算机,CPU是AMD 锐龙9 5900X(12核24线程,3.7GHz),选择AMD 处理器的原因是,没有大小核,不存在核心调度问题。主板为技嘉 AMDX570大板,技嘉大板有两个PCI –E 4.0X16插槽,方便后续添加显卡,进行GPU加速。电源为全汉 550W铜牌电源。

计算节点2:使用1台较新的计算机,CPU是AMD 锐龙7 5700G(8核16线程 3.8GHz),与计算节点1的CPU差别不大,方便调度。电源为全汉 450W铜牌电源。主板为技嘉 AMD B550大板,技嘉大板有两个PCI –E插槽,方便后续添加显卡,进行GPU加速。

头节点:使用1台最新的计算机,CPU是AMD 锐龙5 7600X(6核12线程 4.7GHz),使用32G DDR5内存。主板为技嘉 AMD B650大板,技嘉大板有两个PCI –E插槽,方便后续添加显卡,进行GPU加速。电源为台达650W金牌电源。

光纤网络:作为HPC的私有网络,为了体现HPC的优势,网络速度非常重要。TP-Link 8口万兆交换机(全新)、TP-Link 521F万兆网卡(4个二手)、TP-Link 万兆多模双纤模块(TL-SM512LM-300m 8个全新)、万兆多模LC-LC光纤(4根)。

有线网络:作为控制网络,使用磊科2.5G 交换机(支持机柜安装)。TP-Link千兆有线网卡(4张),主板上自带有千兆网卡,当时考虑到在windows server安装驱动方便。技嘉的主板在windows server下可以自动安装驱动。多余的网卡安装在存储节点,通过“网络聚合”功能使用。

机箱:三拓服务器机柜6822(宽600,深800,高22U 1.2米,4个托盘),机箱为4U650 机箱 3个(二手,机柜深度800安装时有点紧张,网线要伸出一定长度)。

KVM切换器:秦安 17寸四合一切换器(二手),在安装操作系统阶段非常好用。配置完成后通过远程桌面连接。

部署Windows HPC,并实现在Ansys 中向Win HPC提交作业的图2 部署Windows HPC,并实现在Ansys 中向Win HPC提交作业的图3 

6.1、安装Windows Server2025

以下内容为付费内容,请购买后观看

完整的配置教程和配套书籍(中文翻译)

App下载
技术邻APP
工程师必备
  • 项目客服
  • 培训客服
  • 平台客服

TOP

1
1