背景人工智能(Artificial Intelligence, AI)技術的突飛猛進,使其產業規模也獲得高速成長,吸引大批優秀團隊躋身其中。一項數據表明:“截至2017年12月,全球范圍內總計2,075家與AI技術有關公司的融資總額已達65億美元”。作為其中著名的AI獨角獸企業,地平線* (Horizon Robotics*)基于其自主研發的AI芯片和算法軟件,以智能駕駛、智慧城市和智慧零售為主要應用場景,致力于為用戶提供高效、開放的應用解決方案,為多種終端設備裝上智慧“大腦”。作為一家年輕的創業企業,地平線從成立伊始就因其在AI芯片與算法領域方面的超前研究而備受矚目,成為投資人眼中的寵兒。2017年,地平線完成了由英特爾旗下英特爾® 投資(Intel® Capital)領投的近億美金A+輪融資。對于此項投資,英特爾全球副總裁丹尼爾·麥克納馬拉爾(Daniel McNamara)表示:“地平線匯聚了一批經驗豐富的人工智能人才,他們在自動駕駛和人機交互界面等應用領域尤為專業。英特爾的FPGA結合地平線的開放式技術融合模式,將為客戶提供一個既靈活又低功耗的計算平臺。”“面對即將到來的AI時代,地平線致力于以高性能的AI算法與芯片,為用戶提供高效、開放的AI應用解決方案。在我們構建深度學習基礎設施的過程中,英特爾與金山云一起,以多種高性能軟、硬件產品和技術,為我們的深度學習系統提供了強有力的支撐。尤其是英特爾® 傲騰™ 固態盤的加入,使Ceph分布式存儲系統的性能大大提升,幫助地平線兼顧了高性能與大容量的需求。”地平線研究院副院長張健說。地平線構建深度學習平臺面臨的挑戰人工智能(Artificial Intelligence, AI)技術的突飛猛進,使其產業規模也獲得高速成長,吸引大批優秀團隊躋身其中。一項數據表明:“截至2017年12月,全球范圍內總計2,075家與AI技術有關公司的融資總額已達65億美元”。作為其中著名的AI獨角獸企業,地平線* (Horizon Robotics*)基于其自主研發的AI芯片和算法軟件,以智能駕駛、智慧城市和智慧零售為主要應用場景,致力于為用戶提供高效、開放的應用解決方案,為多種終端設備裝上智慧“大腦”。作為一家年輕的創業企業,地平線從成立伊始就因其在AI芯片與算法領域方面的超前研究而備受矚目,成為投資人眼中的寵兒。2017年,地平線完成了由英特爾旗下英特爾® 投資(Intel® Capital)領投的近億美金A+輪融資。對于此項投資,英特爾全球副總裁丹尼爾•麥克納馬拉爾(Daniel McNamara)表示:“地平線匯聚了一批經驗豐富的人工智能人才,他們在自動駕駛和人機交互界面等應用領域尤為專業。英特爾的FPGA結合地平線的開放式技術融合模式,將為客戶提供一個既靈活又低功耗的計算平臺。”“面對即將到來的AI時代,地平線致力于以高性能的AI算法與芯片,為用戶提供高效、開放的AI應用解決方案。在我們構建深度學習基礎設施的過程中,英特爾與金山云一起,以多種高性能軟、硬件產品和技術,為我們的深度學習系統提供了強有力的支撐。尤其是英特爾® 傲騰™ 固態盤的加入,使Ceph分布式存儲系統的性能大大提升,幫助地平線兼顧了高性能與大容量的需求。”地平線研究院副院長張健說。深度學習的動力引擎:金山云EPC為了應對深度學習系統日益增長的計算力和存儲能力需求,除了自建IDC以外,地平線也將目光投向日趨成熟的云服務。通過與金山云開展一系列的溝通與技術交流,地平線認為通用的云服務并不完全契合自身的應用需求。這其中的原因,固然有數據安全性、信息敏感性方面的顧慮,但更重要的是,通用云服務無法為地平線AI應用提供其所需的某些特定性能指標,例如更高的算力和IOPS。為幫助地平線構建高效的深度學習平臺,國內領先的公有云服務提供商金山云* 為之提供了基于高性能云物理主機*(Elastic Physical Cloud,以下簡稱EPC*)集群的模型訓練計算平臺。同時,金山云也聯手英特爾,借助英特爾領先產品和技術提供的強大計算、存儲和網絡性能,為這一深度學習平臺構建了基于Ceph* 的高性能分布式存儲系統。借助英特爾® 傲騰™ 固態盤 DC P4800X與傳統HDD硬盤組合構建的分層存儲能力,使得地平線深度學習平臺存儲系統在讀寫速度、存儲容量以及成本控制方面都獲得了可觀的收益。金山云提供的EPC云服務顯然更適于地平線的要求,如圖1所示。EPC是金山云基于裸金屬服務器理念構建的創新型云服務產品,其可為地平線提供性能卓越的獨享物理服務器,通過安全、穩定、便捷的計算、存儲服務幫助地平線快速構建高性能的深度學習應用平臺。同時,金山云優秀的云網絡架構,也能讓地平線可以在云環境中方便地配置和使用物理服務器,既享受獨享物理服務器帶來的高性能,也能方便地獲取負載均衡、彈性IP等各類網絡服務,并可進行便捷的網絡部署與管理。
圖1. 金山云EPC集群構成示意圖 除了向地平線深度學習應用提供強有力的計算力支撐,金山云EPC另一個重要任務是為其提供高效、可擴展的存儲系統。為應對不斷擴展的海量訓練數據集,地平線利用金山云EPC提供的彈性、易擴展能力,構建了基于Ceph的高性能分布式存儲系統。作為業界流行的開源分布式存儲系統,Ceph可將文件分割后均勻隨機地分散在各個OSD節點上,并采用CRUSH算法來確定文件的存儲位置。通過解析集群的拓撲結構,地平線深度學習應用可以直接計算出文件的存儲位置,直接跟OSD節點通信獲取文件,而無需通過詢問中心節點來獲取文件位置。這一“去中心化”的設計,不僅大大地提升了數據訪問與處理性能,更有效降低了金山云 EPC存儲集群的管理復雜性,并顯著提高了可用性及可擴展性。同時,其采用存儲節點與訪問節點分離的設計,也使得地平線深度學習應用的IO請求上升時,可為其單獨擴充訪問節點來提高讀寫性能,從而帶來良好的彈性擴展能力。另外,Ceph還對固態盤,以及分級存儲有著良好支持,這也能夠有效地提升數據讀寫效率。基于英特爾® 固態盤的分級存儲方案在利用深度學習方法研發AI芯片和算法過程中,地平線面臨著海量的數據處理需求。如前所述,以自動駕駛為例,每天的路面數據量高達4 TB,這就需要存儲系統具有足夠的容量。同時,這些數據通常是以幾十KB大小的小文件形式存在。當地平線需要利用這些數據進行深度學習所需的數據處理與訓練時,對存儲系統的IOPS性能有著非常嚴苛的要求。囿于磁盤訪問速度的限制,傳統HDD機械硬盤的IOPS性能并不理想,在應對地平線深度學習應用所需的小文件高頻次讀寫需求時,往往難以勝任。全固態盤模式固然可以帶來高IOPS能力,但目前其相對昂貴的價格也構成了巨大的成本壓力,限制了存儲系統在容量方面的擴展需求。分級存儲是緩解性能與容量這對矛盾的有效手段。在金山云EPC存儲集群采用的分級存儲方案中,如圖2所示,非活動數據(冷數據)被存放在由12塊8 TB容量HDD硬盤組成的存儲池中,而活動數據(熱數據)則被置放在甶375 GB版本的英特爾® 傲騰™ 固態盤DC P4800X構成的緩存區中。
圖2. 英特爾® 傲騰™ 固態盤+HDD構建的分級存儲模式 來自英特爾® 固態盤數據中心產品家族的英特爾® 傲騰™ 固態盤DC P4800X是基于創新的英特爾® 3D XPoint™ 技術,以及一系列先進系統內存控制器、接口軟硬件構建的全新存儲產品。與傳統NAND介質的固態盤相比,其在IOPS、低延遲以及穩定性方面都有著突破性的提升。一項測試數據表明,英特爾® 傲騰™ 固態盤DC P4800X的IOPS最高可達500,000,同時讀取響應時間低于30微秒,并可承受最高2 GB/秒的隨機寫入壓力,因此非常適用于大數據、高并發的應用場景。英特爾® 傲騰™ 固態盤在耐用性上也有出色表現,英特爾® 傲騰™ 固態盤 DC P4800X的每天寫入次數(Drive Writes Per Day, DWPD)高達30,有力地保障了地平線深度學習系統的有效生命周期。當地平線深度學習應用對數據進行訪問和操作時,Ceph分布式存儲系統的內部處理器將優先讀寫緩存區中的數據,如果數據不在緩存區中, Ceph會通過請求命中算法、緩存刷寫算法、緩存淘汰算法等方式將數據從存儲池中“提取”到緩存區中。通過這一方式,既可使熱數據被高效地訪問和操作,縮短數據的訪問時延,也能以更合理的成本承載地平線深度學習應用所需的海量數據。這一分級存儲方案同樣也被地平線用于Journal。Journal是Ceph分布式存儲系統最重要的安全機制之一,一旦發生停電、宕機或其他意外事件時,Ceph可利用Journal進行系統重建。這樣的特性,意味著Ceph會事無巨細地將數據記錄到Journal中,因此Journal的IO請求非常密集,而采用英特爾® 傲騰™ 固態盤來承載Journal,無疑將使Ceph的讀寫性能獲得顯著提升。來自地平線的反饋表明,與上一 代 SATA固態盤產品 ,例如英特爾® SATA固態盤S3510 (480 GB規格)相比,英特爾®傲騰™ DC P4800X (375 GB規格)能實現非常可觀的性能提升。而與采用了NVMe接口規范的英特爾® 固態盤DC P3700(400 GB規格)相比,其性能提升也很顯著,可為地平線深度學習應用帶來強勁的存儲能力支撐。結論數據與算力、算法,并列為AI的三大核心要素,一個高效、強力的存儲系統無疑將有利于提升整個AI系統的研發和應用效率,這意味著AI領域的數據科學家、應用幵發者,以及使用者,都需要耗費較多的精力在數據處理上。通過金山云EPC及英特爾® 傲騰™ 固態盤等先進產品與技術的引入,地平線深度學習應用的總體效率獲得了大幅提升,有力地推動了地平線基于深度學習的芯片與算法的研發進程。在本案例中引入了英特爾為提升存儲系統緩存性能而開發的專項技術——英特爾® 高速緩存加速軟件(Intel® Cache Acceleration Software,英特爾® CAS),該技術已在大量的實踐部署中被證明可進一步提升分級存儲的效能。同時,金山云EPC在地平線深度學習系統上的成功應用,也為裸金屬服務這一新興的云服務模式在AI研發領域中的落地積累了寶貴的經驗,為云服務如何高效地助力AI研發提供了有益的范例。在未來,地平線、金山云和英特爾三方還將繼續開展更深層次的技術合作,將更多先進產品與技術納入到深度學習研發中去。
文章摘自英特爾精英匯
想購買及了解更多英特爾產品詳情,歡迎咨詢以下聯系方式!
寶通集團聯系方式
咨詢熱線:0755-88603572
寶通官網:www.bjrongxin.com
客戶垂詢郵箱:cuifang.mo@ex-channel.com
客戶垂詢QQ:1627678462
地址:深圳市福田區深南大道1006號國際創新中心C座11樓
郵編:518026