‘神工坊’高性能仿真云平台和其它云平台的区别!

High Performance Industrial Simulation Online
问:目前,大量工业软件纷纷上云,'神工坊'和这些云计算有什么区别?
答:当前,'神工坊'高性能仿真平台的计算资源主要来源于国家超级计算无锡中心,超算在系统架构和服务体系都与现在的云计算有很大不同,今天我们聊聊超算的优异性。
总体来说,100%物理机性能、高效通信、快捷调度、大规模并行是‘神工坊’采用超算资源作为支撑带来的主要优势。对于计算规模和密度较大科学计算、工程模拟等领域,相比基于虚拟技术的云计算,超算是更好选择。
1.
100%物理机性能
超算天生为性能而生,所有的节点都是真实的物理机,作业直接运行于物理机,可以充分发挥CPU等核心部件的性能。
云计算大部分基于虚拟化基础设施,用户直接使用的是运行在宿主机上的虚拟机,性能相对物理机难免有一些损失。如果不是web服务等非计算密集型任务,可能造成比较明显的影响。更重要的是,我们还不得不担心一个对性能影响更大的问题——超卖。
Tips
什么是超卖?
简言之,云计算超卖指实际售出的虚拟资源数量,大于实际拥有的物理资源数量。
这里转载了知乎某博主对于AWS各型号实例CPU超卖率的推断(以下数据不代表本文观点,请访问https://zhuanlan.zhihu.com/p/24435587自行求证)
2.
高效通信
为了追求极致性能,超级计算机的所有节点都选择集中放置,并通过高速低延迟的局域网进行连接。
例如,“神威·太湖之光”节点间都通过InfiniBand交换机进行连接,对分总带宽约相当于70万根单线千兆以太网,同时还有极低的延迟。
Tips
InfiniBand
InfiniBand(直译为“无限带宽”技术,缩写为IB)是一个用于高性能计算的计算机网络通信标准,它具有极高的吞吐量和极低的延迟,用于计算机与计算机之间的数据互连。InfiniBand也用作服务器与存储系统之间的直接或交换互连,以及存储系统之间的互连。
对分带宽
将网络分成节点数最接近的两个子网,在所有分法中,连接两个子网的链路带宽最小值为该网络的对分带宽。
而基于虚拟化基础设施的云计算,在网络硬件一般不会采用昂贵的infiniBand,同时虚化也会对网络效率带来影响。
3.
快捷调度
超算通常采用作业调度系统给计算任务分配计算资源,资源充足时所消耗的时间用户几乎无法感知。
同时,国家超级计算无锡中心使用自研的调度系统,调度时间短、系统资源占用率小于0.1%、调度时间相比其他超算使用的调度器大幅缩减。
而云计算一般需要采用虚拟机调度,启停虚拟机通常需要带来额外的时间开销。另外,当虚拟机资源不满足多变业务资源需求时,还需要反复重新配置和启动虚拟机。
4.
大规模并行
超级计算机在“集中力量办大事”方面具有天然优势。超级计算机最核心的场景,就是利用所有的计算资源计算一个大科学问题。得益于超级计算机节点间高效通信网络,科学计算和工程模拟等需要并行进程间实时通信的应用,在超级计算机上能获得非常理想的加速比。
Tips
加速比
加速比(speedup),是同一个任务在计算资源规模增加后,计算消耗时间降低的比例,用来衡量并行系统或程序并行化的性能和效果。
而在云计算环境中,单个虚拟机规模往往不能突破单个物理节点的规模限制。云计算在架构上,一般是众多分布式物理集群的集合,而物理集群之间通过互联网进行连接。因此,即使采用作业调度模式,云计算在跨集群计算时也无法克服互联网带来的物理网络瓶颈。
十四五期间,工业数字化将是工业转型升级的主路线。“神工坊”秉持“算力赋能、协同创新”的理念,争做“先进算力到仿真算能的转换器”、“离散机理和垂直仿真场景的连接器”,助力我国工程仿真技术实现跨越发展,支撑重大装备研制创新和工业设计研发数字化转型。

工程师必备
- 项目客服
- 培训客服
- 平台客服
TOP
