服務(wù)熱線
0755-83647532
發(fā)表日期:2017-06-07 文章編輯:管理員 閱讀次數(shù):
機(jī)器學(xué)習(xí) (ML) 正在迅速成熟。 如今,我們能夠把大量數(shù)據(jù)輸入機(jī)器學(xué)習(xí)應(yīng)用中,后者能學(xué)會(huì)精確預(yù)測可能出現(xiàn)的結(jié)果。 隨著訓(xùn)練數(shù)據(jù)集的擴(kuò)大,深度學(xué)習(xí) (DL) 模型的精確性呈指數(shù)級(jí)增長。 數(shù)以萬億的互聯(lián)設(shè)備向系統(tǒng)發(fā)送數(shù)據(jù),數(shù)據(jù)集的規(guī)模可達(dá)數(shù)百 TB。
機(jī)器學(xué)習(xí)革命的成果在無人駕駛汽車、實(shí)時(shí)欺詐檢測、對假期照片中的人臉進(jìn)行識(shí)別的社交網(wǎng)絡(luò)等領(lǐng)域得到了很好的體現(xiàn)。它滲透各行各業(yè),影響無處不在。
讓我們揭開全新英特爾至強(qiáng)融核產(chǎn)品家族的神秘面紗,了解其在處理 ML 工作負(fù)載方面的非凡優(yōu)勢。 我還會(huì)分享兩項(xiàng)早期性能測試結(jié)果,即分別在基于單節(jié)點(diǎn)英特爾至強(qiáng)處理器系統(tǒng)和基于 128 節(jié)點(diǎn)英特爾至強(qiáng)融核處理器的集群上運(yùn)行 ML 工作負(fù)載時(shí)的情況。 最后,我會(huì)講述我們?yōu)榱藘?yōu)化軟件庫所付出的努力,展示幾款流行的面向 x86 架構(gòu) 的開源 ML 框架。
“英特爾® 至強(qiáng) 融核™ 處理器特性”
在設(shè)計(jì)第二代英特爾至強(qiáng)融核芯片時(shí),我們發(fā)明了支持自啟動(dòng)的融核處理器 , 不需要在購買額外的處理器運(yùn)行操作系統(tǒng),也不需要通過 PCIe* 插槽傳輸數(shù)據(jù)。 (對于更喜歡把最新版英特爾至強(qiáng)融核芯片作為協(xié)處理器的用戶,我們也有PCIe 卡版本。)
英特爾至強(qiáng)融核處理器 x200 包含 72 個(gè)處理器內(nèi)核,每個(gè)內(nèi)核支持 2 個(gè)英特爾® 高級(jí)矢量擴(kuò)展指令集 512(英特爾® AVX-512)SIMD 處理單元,每內(nèi)核浮點(diǎn)性能顯著提升。 常用的 ML 算法均可從中受益,如浮點(diǎn)乘法和乘加融合指令 (FMA)。 英特爾至強(qiáng)融核處理器 x200 提供高達(dá)每秒 6 萬億次浮點(diǎn)運(yùn)算的計(jì)算能力。 多核、多線程的功能和高帶寬封裝內(nèi)存子系統(tǒng)(多通道 DRAM)及英特爾® Omni-Path 架構(gòu)(英特爾® OPA)的集成結(jié)構(gòu)技術(shù)相結(jié)合。
高帶寬集成內(nèi)存(高達(dá) 16 GB MCDRAM)保證數(shù)據(jù)快速傳輸?shù)絻?nèi)核,并為平臺(tái)額外提供高達(dá) 384 GB 商用 DDR4 內(nèi)存。 程序員可以通過指定數(shù)據(jù)的大小及時(shí)間來管理內(nèi)存。 MCDRAM 使用戶可以靈活地對數(shù)據(jù)高速緩存,不必?fù)?dān)心內(nèi)存管理。 (MCDRAM 可以配置為三級(jí)高速緩存、非一致性內(nèi)存訪問 - 可分配內(nèi)存和高速緩存和內(nèi)存的混合組合。)
當(dāng)處理大型 ML/DL 工作負(fù)載時(shí),從一個(gè)節(jié)點(diǎn)到千百個(gè)節(jié)點(diǎn)的擴(kuò)展能力是至關(guān)重要的。 借助英特爾 OPA 架構(gòu),英特爾至強(qiáng)融核處理器 x200 能夠以近乎線性的方式擴(kuò)展內(nèi)核和線程。 在編碼層面,通過架構(gòu)可以最少的編程快速高效地從遠(yuǎn)程存儲(chǔ)獲取數(shù)據(jù),并放入本地高速緩存。
這些創(chuàng)新為機(jī)器學(xué)習(xí)和深度學(xué)習(xí)提供了優(yōu)質(zhì)的訓(xùn)練時(shí)間。 比如,AlexNet 訓(xùn)練方面,相對于單節(jié)點(diǎn)而言,128 節(jié)點(diǎn)英特爾至強(qiáng)融核處理器 x200 的訓(xùn)練時(shí)間減少了 50 倍。 進(jìn)行 GoogLeNet 訓(xùn)練時(shí),32 節(jié)點(diǎn)英特爾至強(qiáng)融核處理器 x200 的擴(kuò)展效率達(dá)到 87%,比最新公布的最高數(shù)據(jù)超出 38%。
應(yīng)用只有并行化,才能利用大規(guī)模并行多核、多線程架構(gòu)。 否則,你只能獲得單核、單線程性能。
英特爾至強(qiáng)融核處理器 x200 的每個(gè)內(nèi)核包含多個(gè)矢量處理單元,所以整體計(jì)算密度更高,成為抵消單核、單線程性能的一個(gè)因素。 因此,如果你的工作負(fù)載能受益于高水平的并行性和線程并行性,英特爾至強(qiáng)融核處理器把更多計(jì)算融入更小的區(qū)域,功耗低于其他解決方案。
“二進(jìn)制兼容”
文章摘自英特爾精英匯
歡迎聯(lián)系寶通集團(tuán)咨詢英特爾相關(guān)產(chǎn)品信息
寶通集團(tuán)聯(lián)系方式
咨詢熱線:400-830-0107
寶通官網(wǎng):www.bjrongxin.com
客戶垂詢郵箱:Customer@ex-channel.com
客戶垂詢QQ:1305742380
地址:深圳市福田區(qū)深南大道1006號(hào)國際創(chuàng)新中心C座11樓
郵編:518026