為了提升計算基礎(chǔ)設(shè)施的性能,并緊跟數(shù)據(jù)分析與 AI 不斷攀升的需求,眾多企業(yè)將硬件加速視為主要的解決方案。在大多數(shù)情況下,先進(jìn)的可編程硬件(主要是指 GPU 和 FPGA)是加速的主要方式。通過使用這種先進(jìn)的硬件,企業(yè)正在贏得計算優(yōu)勢;然而,對于編程難度,他們?nèi)匀淮嬖诤侠淼膿?dān)憂。
圖 1:分析/AI 流水線組件
硬件制造商正在將加速方法應(yīng)用于計算存儲,這是專門設(shè)計用于包含內(nèi)嵌計算元素的存儲。這種方法已經(jīng)被證明可以為分析和 AI 應(yīng)用提供優(yōu)異的性能(圖 1)。使用或者不使用機(jī)器學(xué)習(xí)輔助的分析以及驗(yàn)證,都可以借助計算存儲器件進(jìn)行加速。這些器件提供了一個關(guān)鍵的優(yōu)勢,使得成本高昂的計算被卸載到存儲器件上,而不必在服務(wù)器 CPU 上完成。與標(biāo)準(zhǔn)的存儲/CPU 方法相比,通過計算存儲獲得的優(yōu)勢包括:
1. 借助應(yīng)用專用編程定制可編程硬件,獲得更高性能
2. 將計算任務(wù)從服務(wù)器卸載到存儲器件,釋放 CPU 資源
3. 數(shù)據(jù)與計算共址,降低數(shù)據(jù)傳輸需求
這種新穎的方法前景光明。不過,您應(yīng)根據(jù)具體用例評估這種方法,考量性能、成本、功耗和易用性。性價比和單位功耗性能在選擇加速硬件評估時,占據(jù)主要比率。在本文中,我們將研討單位功耗性能(另一篇文章則專門研討性價比)。
計算存儲功耗比較
3種系統(tǒng)
在這個場景中,我們將比較以 CSV 數(shù)據(jù)讀取用例為主的三種工具:英偉達(dá) GPUDirect 存儲 和RAPIDS存儲,以及基于賽靈思技術(shù)的三星 SmartSSD 存儲。CSV 讀取在計算密集型流水線中起著重要的作用(參見圖 1)。
在下文中,我們將性能定義成 CSV 的處理速率,或處理“帶寬”。我們先快速回顧一下三種系統(tǒng)的運(yùn)行方式。
英偉達(dá) GPUDirect 存儲
·端到端滿足分析和 AI 需求
·將 GPU 用作計算單元,緊貼基于 NVMe 的存儲器件布局 (GPUDirect)
·使用 CUDA 進(jìn)行編程 (RAPIDS)
英偉達(dá)用其 CSV 數(shù)據(jù)讀取技術(shù)衡量相對于標(biāo)準(zhǔn) SSD 的性能提升。結(jié)果如圖 1 所示。使用 1 到 8 個加速器時,對應(yīng)的吞吐量是 4 到 23GB/s。
三星 SmartSSD 驅(qū)動器
·將賽靈思 FPGA 用作計算單元
·與存儲邏輯內(nèi)嵌駐留在同一個內(nèi)部 PCIe 互聯(lián)上
·通過編程在存儲平臺上開展運(yùn)算
賽靈思數(shù)據(jù)分析解決方案合作伙伴 Bigstream 與三星合作,為 Apache Spark 設(shè)計加速器,包括用于 CSV 和 Parquet 處理的 IP。SmartSSD 的測試使用單機(jī)模式的 CSV 解析引擎,以便開展比較。結(jié)果如圖 2 所示,使用 1 到 12 個加速器時,對應(yīng)的吞吐量是 4 到 23GB/s,同時也給出英偉達(dá)的結(jié)果(使用 1 到 8 個加速器)。請注意,本討論中的所有結(jié)果都按 x 軸上的加速器數(shù)量進(jìn)行參數(shù)化。
這些結(jié)果令人振奮,但在選擇您的解決方案時,請務(wù)必將功耗情況納入考慮。
圖 2:SmartSSD 驅(qū)動器的 CSV 解析性能結(jié)果
單位功耗性能比較
圖 3 顯示了將功耗考慮在內(nèi)后的分析結(jié)果。它們代表單位功耗達(dá)到的性能水平,根據(jù)上述討論中引用的相關(guān)材料,給出了以下假設(shè):
·Tesla V100 GPU:最大功耗 200 瓦
·SmartSSD 驅(qū)動器 FPGA:最大功耗 30 瓦
圖 3:CSV 解析的每瓦功耗帶寬比較
在這個場景下,計算表明,在全部使用 8 個加速器的情況下,SmartSSD 的單位功耗性能比 GPUDirect Storage 高 25 倍。
FPGA 與 GPU 對比:有關(guān)單位功耗性能的最終思考
計算存儲的優(yōu)勢在于能增強(qiáng)數(shù)據(jù)分析和 AI 應(yīng)用的性能。然而,要讓這種方法具備可實(shí)際部署的能力和實(shí)用性,就必須在評估時將功耗納入考慮。
針對用于 CSV 數(shù)據(jù)解析的兩種不同的計算存儲方法,我們已經(jīng)提出按功耗參數(shù)化的吞吐量性能曲線。結(jié)果顯示,在使用相似數(shù)量的加速器進(jìn)行比較時,SmartSSD 驅(qū)動器的單位功耗性能優(yōu)于 GPUDirect存儲方法。
GPUDirect 是英偉達(dá)通過 NVIDIA DGX-2 應(yīng)用平臺提供的研究系統(tǒng)。
三星 SmartSSD 驅(qū)動器是一種可部署的量產(chǎn)型 PCIe 可插拔平臺,現(xiàn)在已經(jīng)通過賽靈思及分銷商供貨。
如需了解更多信息,請查看:
· 有關(guān) Bigstream 與 SmartSSD 計算存儲器件結(jié)合使用,加速大數(shù)據(jù)和數(shù)據(jù)分析的電子書。
· Bigstream 硬件加速 Apache Spark解決方案。
· 有關(guān)使用三星 SmartSSD 驅(qū)動器給工作負(fù)載帶來優(yōu)勢的 三星 SmartSSD 頁面。