旷世神医,遮天辰东小说

你的位置：首頁 > 互連技術 > 正文

采用創(chuàng)新的FPGA 器件來實現(xiàn)更經(jīng)濟且更高能效的大模型推理解決方案

發(fā)布時間：2024-06-14 責任編輯：lina

【導讀】采用 FPGA 器件來加速LLM 性能，在運行 Llama2 70B 參數(shù)模型時，Speedster7t FPGA 如何與 GPU 解決方案相媲美？證據(jù)是令人信服的——Achronix Speedster7t FPGA通過提供計算能力、內(nèi)存帶寬和卓越能效的最佳組合，在處理大型語言模型（LLM）方面表現(xiàn)出色，這是當今LLM復雜需求的基本要求。

摘要

本文根據(jù)完整的基準測試，將Achronix Semiconductor公司推出的Speedster7t FPGA與GPU解決方案進行比較，在運行同一個Llama2 70B參數(shù)模型時，該項基于FPGA的解決方案實現(xiàn)了超越性的LLM推理處理。

采用 FPGA 器件來加速LLM 性能，在運行 Llama2 70B 參數(shù)模型時，Speedster7t FPGA 如何與 GPU 解決方案相媲美？證據(jù)是令人信服的——Achronix Speedster7t FPGA通過提供計算能力、內(nèi)存帶寬和卓越能效的最佳組合，在處理大型語言模型（LLM）方面表現(xiàn)出色，這是當今LLM復雜需求的基本要求。

像 Llama2 這樣的 LLM 的快速發(fā)展正在為自然語言處理（NLP）開辟一條新路線，有望提供比以往任何時候都更像人類的交互和理解。這些復雜的 LLM 是創(chuàng)新的催化劑，推動了對先進硬件解決方案的需求，以滿足其密集處理需求。

我們的基準測試突出了 Speedster7t 系列處理 Llama2 70B 模型復雜性的能力，重點關注 FPGA 和 LLM 性能。這些測試（可根據(jù)要求提供結果）顯示了Achronix FPGA對于希望將LLM的強大功能用于其NLP應用程序的開發(fā)人員和企業(yè)的潛力。這些基準測試展示了 Speedster7t FPGA 如何超越市場，提供無與倫比的性能，同時降低運營成本和環(huán)境影響。

Llama2 70B LLM 運行在 Speedster7t FPGA 上

2023 年 7 月，Microsoft 和 Meta 推出了他們的開源 LLM，Llama2 開創(chuàng)了 AI 驅(qū)動語言處理的新先例。Llama2 采用多種配置設計，以滿足各種計算需求，包括 700 億、130 億和 700 億個參數(shù)，使其處于 LLM 創(chuàng)新的最前沿。Achronix和我們的合作伙伴 Myrtle.ai 對700億參數(shù)的Llama2模型進行了深入的基準分析，展示了使用Speedster7t FPGA進行LLM加速的優(yōu)勢。

基準測試結果：Speedster7t FPGA 與業(yè)界領先的 GPU 對比

我們在 Speedster7t FPGA 上測試了 Llama2 70B 模型的推理性能，并將其與領先的 GPU 進行了比較。該基準測試是通過對輸入、輸出序列長度（1,128）和批處理大小 =1 進行建模來完成的。結果表明，Speedster7t AC7t1500在LLM處理中的有效性。

FPGA 成本基于由 Speedster7t FPGA 提供支持的 VectorPath 加速卡的標價。同樣，我們在此分析中使用了可比GPU卡的標價。使用這些成本信息和每秒產(chǎn)生的輸出令牌數(shù)量，我們計算出基于 FPGA 的解決方案的 $/token 提高了 200%。除了成本優(yōu)勢外，在比較 FPGA 和 GPU 卡的相對功耗時，我們觀察到與基于 GPU 的解決方案相比，產(chǎn)生的 kWh/token 提高了 200%。這些優(yōu)勢表明 FPGA 如何成為一種經(jīng)濟且能效高效的 LLM 解決方案。

采用創(chuàng)新的FPGA 器件來實現(xiàn)更經(jīng)濟且更高能效的大模型推理解決方案

面向 LLM 的 FPGA：Speedster7t 的優(yōu)勢

Achronix Speedster7t系列FPGA旨在優(yōu)化LLM操作，平衡LLM硬件的關鍵要求，包括：

高性能計算 – 具有高性能計算能力的尖端硬件對于管理 LLM 推理核心的復雜矩陣計算至關重要。

高帶寬內(nèi)存 – 高效的 LLM 推理依賴于高帶寬內(nèi)存，通過模型的網(wǎng)絡參數(shù)快速饋送數(shù)據(jù)，而不會出現(xiàn)瓶頸。

擴展和適應能力 – 現(xiàn)代 LLM 推理需要能夠隨著模型規(guī)模的增長而擴展并靈活適應 LLM 架構的持續(xù)進步的硬件。

高能效處理 – 可持續(xù)的 LLM 推理需要硬件能夠最大限度地提高計算輸出，同時最大限度地降低能耗，從而降低運營成本和環(huán)境影響。

Speedster7t FPGA 提供以下功能，以應對實施現(xiàn)代 LLM 處理解決方案的挑戰(zhàn)：

計算性能 – 通過其靈活的機器學習處理器（MLP）模塊支持復雜的 LLM 任務。

高 GDDR6 DRAM 帶寬 – 確保以 4 Tbps 的內(nèi)存帶寬快速處理大型 LLM 數(shù)據(jù)集。

大量的 GDDR6 DRAM 容量 – 可容納 Llama2 等擴展的 LLM，每個 FPGA 的容量為 32 GB。

用于 LLM 的集成 SRAM – 提供低延遲、高帶寬的存儲，具有 190 Mb 的 SRAM，非常適合存儲激活和模型權重。

多種本機數(shù)字格式 – 適應 LLM 需求，支持塊浮點（BFP）、FP16、bfloat16 等。

高效的片上數(shù)據(jù)傳輸 – 2D NoC 超過 20 Tbps，簡化片上數(shù)據(jù)流量。

擴展橫向擴展帶寬 – 支持多達32個112 Gbps SerDes 滿足 LLM 需求，增強連接性。

自適應邏輯級可編程性 – 使用 690K 6 輸入 LUT 為 LLM 的快速發(fā)展做好準備。

針對 LLM 推理優(yōu)化的 FPGA

在快速變化的人工智能和自然語言處理領域，使用 FPGA 而不是 GPU 來加速 LLM 是一個相當新的想法。該基準測試展示了設計人員如何從使用Achronix的FPGA技術中受益。Achronix Speedster7t系列FPGA是這一變化的關鍵技術，在高性能、高帶寬存儲器、易于擴展和電源效率之間實現(xiàn)了出色的平衡。

基于詳細的基準分析，將 Speedster7t FPGA 與領先的 GPU 在處理 Llama2 70B 模型方面的能力進行比較，結果表明 Speedster7t FPGA 能夠提供高水平的性能，同時大大降低運營成本和環(huán)境影響，突出了它在未來 LLM 創(chuàng)建和使用中的重要作用。

如果希望進一步了解如何使用FPGA器件來加速您的LLM程序，以及 FPGA 加速 LLM 解決方案的未來發(fā)展機遇，請聯(lián)系Achronix，獲取詳細的基準測試結果，并幫助您確定Achronix FPGA技術如何加速您的LLM設計。

免責聲明：本文為轉載文章，轉載此文目的在于傳遞更多信息，版權歸原作者所有。本文所用視頻、圖片、文字如涉及作品版權問題，請聯(lián)系小編進行處理。

中南覆鸥人力资源有限公司

采用創(chuàng)新的FPGA 器件來實現(xiàn)更經(jīng)濟且更高能效的大模型推理解決方案

友情鏈接(QQ：317243736)