背景 法國國家航空航天科研局(ONERA)的任務是尋找提高行業競爭力、保護環境和提高航空航天器安全性的解決方案,這對高性能計算資源有著極高的要求。雖然有七個科學部門共用這些系統,但涉及計算流體動力學和能量學(CFDE)的兩個部門(空氣動力/氣動彈性/聲學部和針對能源方向的多元物理場部)占用了該組織將近 95% 的 CPU使用率。更重要的是,法國國家航空航天科研局的所有 CPU 運行的都是專有代碼,因此法國航空航天實驗室特別熱衷于了解新興技術,以尋找更好的軟件架構。2015 年,作為一個定期升級周期到來,法國國家航空航天科研局開始考慮更換原來的主要生產機器Stelvio。
部署新高性能計算系統面臨的挑戰
自成立以來,法國國家航空航天科研局一直對高性能計算系統有著極高的需求。該局內部安裝過所有矢量超級計算機,包括 CRAY 1S、X-MP、Y-MP 和 C90 系統,以及NEC SX-4 和 SX-8 系統。其第一臺超標量超級計算機是 2006 年安裝的、搭載英特爾® 安騰® 處理器的 Novascale Bull 計算機 [528 個內核,3.4 Tflops]。早在 1996 年,法國國家航空航天科研局就與英特爾合作安裝了配備 i860 處理器的英特爾® Paragon XP 系統。法國國家航空航天科研局所有七個科學部門的研究人員在進行各種研究時都需要使用這些系統。例如,電磁學和雷達部門依靠需要依靠這些系統來研究電磁兼容性(EMC)和隱形等問題,物理部門需要進行大量的閃電相關研究,但就目前而言,這些系統的最大用戶是計算流體動力學和能量學部門。1. 如何用新型生產系統更好地滿足用戶需求和處理需求?在考慮如何用新型生產系統更好地滿足用戶需求和處理需求方面,法國國家航空航天科研局的主要訴求是更強的處理能力和架構一致性。法國國家航空航天科研局高性能計算特別顧問 Alain Refloch表示科研局打算采用 x86 架構,以盡可能地降低移植成本。同時,使用 ONERA 代碼的行業合作伙伴使用的也是 x86 架構,因此在評估各種選項時,采用x86架構可以帶來更高的性價比。2. 如何保證多元物理仿真平臺的基礎設施功能及性能?新型計算機主要用于多元物理學研究。為此,有必要對數值方法開展一番研究,以穩定、保守的方式耦合多元物理系統,從而產生可靠的物理結果。未來十年內,多元物理場工具和流程必將取得重大進展。因此,法國國家航空航天科研局多元物理仿真平臺的基礎設施應該允許不同的物理學研究機構在網格管理、耦合技術、并行性、通信調度、插值、誤差估計和 UQ 軟件、數據管理工具、可視化和 I/O 以及彈性等方面展開合作。3. 如何部署新的集中式開發系統?考慮到法國國家航空航天科研局研究項目的多樣性以及不同部門的專業需求,該科研局還計劃部署一種新的集中式開發系統,其架構與新型超級計算機相同,也包含專用節點。
高性能計算系統解決方案摘要
憑借新型系統,法國國家航空航天科研局得以兼顧開發和生產。新的生產系統(名為 Sator) 采用英特爾® 至強® 處理器和英特爾® OPA 架構,向法國國家航空航天科研局提供了所需的超高性價比。Sator 為法國國家航空航天科研局的專業研究提供了強大的解決方案,較以前的系統向前邁進了一大步。開發機器 SPIRO 配備了專門的英特爾® 至強® 可擴展處理器和英特爾® 至強融核™ 處理器以及GPU 節點,有助于確保開發人員始終利用最新的技術。解決方案組成部分• Sator — NEC HPC1812 Rg 2 服務器搭載英特爾® 至強® E5-2680v4 14c 2.4Ghz 處理器,共計 17,360 個內核,采用英特爾® Omni-Path 高帶寬網絡• SPIRO — HPE SGI 系統具有 3,000 多個英特爾® 至強® 內核,以及包含英特爾® 至強融核™ 處理器、英特爾® 至強® 可擴展處理器和 GPU 的專用節點
高性能計算系統解決方案
采購新系統時,法國國家航空航天科研局根據法國公共采購規定發布了征求建議書。實驗室根據技術考慮因素、基準測試結果以及支持和服務價格的組合做出了最終選擇。所有提案都基于英特爾® 處理器,而各個提案的主要區別在于處理器內核數量和處理器頻率。生產系統Sator對于新的生產系統(名為 Sator),法國國家航空航天科研局選擇了搭載英特爾® 至強® 處理器(每個處理器有 14 個內核)的NEC HPC1812 Rg 2 服務器。該系統總共包含 17,360 個內核,并采用 100Gbps 的英特爾® Omni-Path 架構。2017 年 6 月,該系統實現了 579.2 TFlops 的 Linpack 性能和 667 TFlops 的理論峰值性能,成為 TOP500 排行榜上排名第 341 位的系統。(在 2017 年 11 月的 TOP500 排行榜中,Sator 下降至第 473位)。Refloch 提出Linpack 數值中的 0.2 非常重要,因為目前在 579 到580 Tflops 之間有三個站點。
圖 1. 法國國家航空航天科研局的 NEC HPC1812 Rg 2 系統(被命名為 Sator) 開發系統SPIRO對于稱為 SPIRO 的集中式開發系統,法國國家航空航天科研局選擇了 HPE SGI 系統。該系統包含供法國國家航空航天科研局不同用戶群體使用的專用節點:132 個運行英特爾® 至強® 可擴展處理器的節點(E5-2650V4雙路,3168 個內核),配備 128 GB 內存6 個運行英特爾® 至強融核™ 7230 處理器的節點1 個運行兩個 Nvidia* Pascal* GPU 處理器的節點3 個運行 Nvidia Tesla* K80 GPU 處理器的節點5 個具有 256 GB 內存的節點,2 個 512 GB 節點和 1 個1 TB 節點開發系統也使用了英特爾® Omni-Path 架構。在該系統中,英特爾® OPA 連接了 38 個計算節點,每個端口支持高達 100 Gbps。另外 94 個計算節點使用 1 Gbps 以太網* 進行連接。除了每年增加新節點以跟隨處理器的發展,法國國家航空航天科研局還為網絡文件服務器添加了六個節點,為連接添加了七個節點。該新型集中式開發機器為法國國家航空航天科研局帶來了諸多優勢,例如降低維護要求和成本。最重要的是,它為法國國家航空航天科研局的所有開發團隊提供了對專用節點的通用訪問,除了執行非回歸測試外,還為測試驗證案例提供了充足的計算能力。對于計算流體動力學和能量學開發團隊來說,共享相同的機器和開發工具可將所有人更緊密地聯系在一起,這對于推進法國國家航空航天科研局的計算流體動力學和能量學軟件路線圖以及向流體動力學和能量學通用平臺轉變的目標至關重要。雖然便捷性和性能是新系統的首要考慮因素,但為了擁有更集中化的開發機器,還包括以下目標:降低維護成本;提供充足的計算能力來測試有關案例驗證的開發工作,而不僅僅是非回歸測試;使所有開發團隊能夠共同訪問專用節點(大內存、新處理器)該機器旨在供法國國家航空航天科研局的所有開發人員使用,而非僅僅運行計算流體動力學和能量學代碼,此外,它還通過共享相同的機器和相同的開發工具,將不同的計算流體動力學和能量學開發團隊匯聚到了一起。這符合法國國家航空航天科研局的計算流體動力學和能量學軟件路線圖—朝著通用平臺的方向邁進。
結果
雖然法國國家航空航天科研局對于 Sator 系統的使用仍處于起步階段,但 Refloch 表示,該系統的初期使用體驗十分令人滿意。Refloch 指出英特爾® 至強® 處理器與英特爾® OmniPath 高帶寬網絡的組合是迄今為止該科研局運行的工作負載的理想選擇。在該 NEC 系統的早期使用過程中,法國國家航空航天科研局對elsA新架構的一個原型(稱為靈活空氣動力學求解技術(FAST))進行了測試。法國國家航空航天科研局在 17,000 多個內核上展現了 95% 的可擴展性,這種可擴展性極易實現。 Refloch 表示,作為 IPCC(英特爾® 并行計算中心,英特爾® PCC)計劃的一部分,法國國家航空航天科研局針對多核情況,對其靈活空氣動力學求解技術(FAST)應用程序進行矢量化處理,這項工作有助于加快代碼的現代化工作。Refloch認為在這一過程中,英特爾® 的工具(包括英特爾® Advisor)也提供了很大的幫助。總體而言,大多數用戶的常用應用所使用的內核數量是以前的兩倍多,因此在大多數情況下,科研局研究人員所用應用的性能將得到顯著提高,NEC 系統預計將提供的省時和節能優勢。
文章摘自英特爾精英匯
想購買及了解更多英特爾產品詳情,歡迎咨詢以下聯系方式!
寶通集團聯系方式
咨詢熱線:0755-88603572
寶通官網:www.bjrongxin.com
客戶垂詢郵箱:cuifang.mo@ex-channel.com
客戶垂詢QQ:1627678462
地址:深圳市福田區深南大道1006號國際創新中心C座11樓
郵編:518026