為了滿足科學計算對于高性能計算(High Performance Computing,簡稱 HPC)系統的苛刻需求,東方超算采用英特爾® 至強® 可擴展處理器,結合專為高性能計算設計的英特爾® Omni-Path(英特爾® OPA)架構,打造了計算性能強、并行效率高、適用性廣泛的高性能計算一體機,并在數值天氣、工業制造、新材料等領域擁有大量的成功實踐。
背景隨著中國經濟的崛起與大數據、人工智能等創新技術的快速發展,科研創新持續加速,并催生了大量的新研究方法與工具,科學計算呈現出了井噴式的需求,計算流體力學(Computational Fluid Dynamics,簡稱 CFD)等應用對于計算系統的性能提出了極高的要求,常規的計算能力遠遠無法應對復雜的科研任務所帶來的挑戰。各領域急需計算性能強、并行效率高、適用性廣泛的高性能計算集群,以同時滿足科學計算、大數據分析和機器學習需求,為科研創新提供加速器和必備條件。高性能計算一直被視為計算機應用最為璀璨的一顆明珠,在互聯網、數值天氣、工業制造、新材料等大量的細分領域,高性能計算都起著至關重要的作用。例如,在工業制造領域,便捷高效的工業仿真可大幅加速產品的研發速度,提高產品質量并大幅降低研發費用;在數值天氣預報領域,高性能計算顯著提升了日常天氣、氣象災害和空氣質量的預報時效和精度,讓更長時間、更精準的天氣預報成為可能。而高性能計算系統的性能表現,更成為衡量一個企業乃至國家高新技術研發實力的重要標準。化解高性能計算的挑戰為打造更高性能、更穩定、適用性更廣泛的高性能計算一體機,高性能計算面臨以下幾大挑戰:1.如何進一步提升高性能計算系統的性能表現性能特別是浮點計算能力是衡量高性能計算系統的關鍵標準之一,要提升高性能計算系統的性能,可以采取集群的方式增加服務器的數量,性能提升的效果可以說是 “立竿見影”。但是,服務器節點的增加也會導致高性能計算系統的硬件采購、空間、能耗等方面成本的線性增長,對用戶帶來不容忽視的成本壓力。另外一個可行的方式是高效融合為高性能計算創新和優化的處理器、網絡架構、科學計算套件等組件,這個方式成為提升單個計算節點性能表現的優先選擇。2.如何通過網絡架構優化應用性能并降低端到端的延遲對于終端用戶來說,要部署高性能計算系統,往往需要解決網絡架構的選型問題,專為高性能計算進行優化的網絡架構往往具備低延遲、高擴展等優秀能力,能夠跨大量節點或核心計數群集進行性能擴展,同時在應用跨群集擴展時保持很低的端到端延遲。另外,在為高性能計算系統選擇網絡架構的過程中,還需要確保不同網絡通信基礎設施之間的兼容性,避免對于當前業務以及未來的業務擴展帶來影響。高性能計集群解決方案為了給用戶提供更優秀的高性能計算系統,滿足用戶科學計算需求,東方超算與英特爾進行緊密合作,推出了高性能計算集群解決方案,其核心的先進性源于英特爾產品與技術。在至關重要的處理器選型過程中,東方超算將目標瞄準了最新的英特爾® 至強® 可擴展處理器。作為最新的 Skylake 架構、14nm 制程以及 6 內存通道的集合,英特爾® 至強® 可擴展處理器擁有重新設計的內存一致性,以及英特爾® 512 位高級向量指令集,每個核心最大支持 2 個 FMA,可大幅提升浮點計算性能,較上一代處理器性能提升顯著。高性能計算一體機的另外一個關鍵部分是網絡架構,需要解決“是選擇 EDR InfiniBand,還是 OPA?” 的重要問題。東方超算經過調研和論證,認為英特爾® OPA 采用了先進的無連接設計,提供可擴展更高節點和更多內核數量的性能,使其成為面向高性能計算一體機的理想選擇。在驗證過程中,英特爾® Omni-Path Switch 和 Host Fabric Interface Adapter 被證明可提供高達 100Gb/s 帶寬和極低的通信延遲,從而保障了大規模集群擴展性。另外,東方超算還使用了搭載英特爾® 至強® 可擴展處理器的英特爾服務器平臺以及英特爾® Parallel Studio XE 套件。其中,搭載英特爾® 至強® 可擴展處理器的英特爾服務器平臺采用標準19 寸 1U/2U 機架式設計,支持高達 165W TDP,具備科學的散熱設計和強大的可擴展性;2U4 節點高密度機架式設計可以有效控制 TCO。英特爾® Parallel Studio XE 套件提供了可幫助C、C ++、Fortran 和 Python* 等軟件開發人員利用不斷升級的處理器矢量化和并行功能,大幅提高應用程序性能。
表 1. 面向仿真分析領域的東方超算高性能計算一體機配置
在某汽車風洞中心的高性能 CFD 仿真分析集群建設實踐中,東方超算為客戶建立了涵蓋 1276 個英特爾® 至強® 金牌處理器、一套 GPFS 分布式存儲(500TB 可用容量),一套基于英特爾® OPA 架構的 100Gb/s 的 2 層胖樹無阻塞網絡、一套系統管理網絡、一套硬件管理網絡,詳細拓撲如圖 1 所示:
圖 1. 高性能 CFD 仿真分析集群詳細拓撲
高性能計算效果受益于英特爾專為高性能計算優化的硬件產品與軟件工具,以及東方超算在高性能計算領域深厚的技術積淀,東方超算高性能計算一體機的內存帶寬與計算性能得到了充分的保證。為此,東方超算以英特爾® 至強® 金牌 6142 處理器、英特爾® 至強® 金牌 6130 處理器和上一代處理器英特爾® 至強® E5-2680 v4 為例,對影響服務器性能的浮點計算和內存帶寬進行測試和對比,以驗證高性能計算一體機的實際性能,為服務器選型提供參考。測試平臺設置如下:操作系統為 Centos7.5,Linpack 使用英特爾® Math Kernel Library 安裝路徑下的 Benchmark/mp_linpack 進行 HPL 測試,內存使用至 90%。內存帶寬測試使用Stream 基準測試程序,在 BIOS 中將睿頻打開。硬件平臺配置如表 2 所示:
表 2. 測試平臺硬件配置
測試項目如下:• Linpack 浮點性能測試:通過對參測處理器的 Linpack 性能測試,了解處理器的真實性能;• 內存帶寬測試:對參測的處理器型號在插滿內存的情況下進行 Stream 性能測試,測試處理器在內存數量大于等于 12 個的情況下,內存帶寬的變化,并測試內存帶寬變化后 Linpack性能變化,指導我們優化內存配置,獲得最高性能。結果分析• 在東方超算的測試配置下,英特爾® 至強® 可擴展處理器較英特爾® 至強® E5-2600 v4 Linpack 性能提升幅度超過 50%,如圖 2 所示。
圖 2. Linpack 性能提升
• 英特爾® 至強® 可擴展處理器較英特爾® 至強® E5-2600 v4 Stream 性能提升超過 30%。并且在一個內存通道插 2 條內存的情況下內存帶寬最高值沒有顯著變化。
圖 3. Stream 性能提升
測試結果表明,東方超算高性能一體機浮點計算和內存訪問性能優異,結合 OPA 的雙向帶寬和單向帶寬測試中表現出的良好水平,以及 GPFS 的突出性能,可以幫助用戶快速驗證和優化包括空氣動力學、聲學、熱力學設計在內的科學計算項目,達到提升科研水平、縮短研發周期、降低研發費用的目的。除了在性能上表現優異之外,東方超算與英特爾建立的密切合作關系也確保在實際項目的實施過程中,不僅能為用戶提供滿足實際應用需求的高性能計算解決方案,還能夠快速提供產品供貨以及技術支持,縮短項目交付周期。在某汽車風洞項目中,東方超算在與用戶簽訂采購合同后 7 天內完成全部設備上架、集群調試和業務負載測試,并交付用戶正式使用,獲得了用戶的高度評價。
文章摘自英特爾精英匯
想購買及了解更多英特爾至強可擴展處理器產品詳情,歡迎咨詢以下聯系方式!
寶通集團聯系方式
咨詢熱線:0755-88603572
寶通官網:www.bjrongxin.com
客戶垂詢郵箱:cuifang.mo@ex-channel.com
客戶垂詢QQ:1627678462
地址:深圳市福田區深南大道1006號國際創新中心C座11樓
郵編:518026