91麻豆精品无码人妻系列熟人,中国女人内射69XXXXⅩ视频

您當(dāng)前的位置：滾動(dòng) >

超星未來梁爽：軟硬件協(xié)同優(yōu)化，賦能AI 2.0新時(shí)代

2024-07-22 13:43:09 來源：今日熱點(diǎn)網(wǎng) 分享

近日，第三屆清華大學(xué)汽車芯片設(shè)計(jì)及產(chǎn)業(yè)應(yīng)用研討會(huì)暨校友論壇在蕪湖成功舉行。作為本次活動(dòng)的特邀嘉賓，超星未來聯(lián)合創(chuàng)始人、CEO梁爽博士出席并發(fā)表主題演講《軟硬件協(xié)同優(yōu)化，賦能AI 2.0新時(shí)代》。

大模型是AI 2.0時(shí)代的“蒸汽機(jī)”

AI+X應(yīng)用落地及邊緣計(jì)算將成為關(guān)鍵

自ChatGPT發(fā)布以來，大模型引爆“第四次工業(yè)革命”，成為AI 2.0時(shí)代的“蒸汽機(jī)”，驅(qū)動(dòng)著千行百業(yè)智能化變革。保爾·芒圖曾說：“蒸汽機(jī)并不創(chuàng)造大工業(yè)，但是它卻為大工業(yè)提供了動(dòng)力”，大模型也是如此，本身不會(huì)直接創(chuàng)造新的產(chǎn)業(yè)，而是與已有的行業(yè)應(yīng)用場(chǎng)景及數(shù)據(jù)結(jié)合創(chuàng)造價(jià)值。

WAIC 2024落幕后，有媒體評(píng)論：大模型再無新玩家，AGI下半場(chǎng)是計(jì)算與應(yīng)用。梁爽認(rèn)為，AGI下半場(chǎng)將是AI+X應(yīng)用落地和邊緣計(jì)算。AI 1.0時(shí)代，服務(wù)器側(cè)的神經(jīng)網(wǎng)絡(luò)模型，在安防、智能駕駛等應(yīng)用領(lǐng)域里逐步下沉到邊緣端，這一趨勢(shì)也一定會(huì)在AI 2.0的時(shí)代再演繹一次，并且將在智慧城市、汽車、機(jī)器人、消費(fèi)電子等領(lǐng)域創(chuàng)造出更為廣闊的增量市場(chǎng)。

回顧AI的演進(jìn)歷史，可以看到，AI 1.0時(shí)代的主要模式是通過單一模型完成單一任務(wù)，例如安防、人臉識(shí)別、語音識(shí)別，以及基于感知-決策-控制分模塊的智能輔助駕駛方案。梁爽認(rèn)為，現(xiàn)在正進(jìn)入一個(gè)“AI 1.5時(shí)代”，在智能駕駛、機(jī)器人等復(fù)雜系統(tǒng)中，統(tǒng)一用神經(jīng)網(wǎng)絡(luò)完成各個(gè)模塊功能的實(shí)現(xiàn)，盡量減少人工規(guī)則，并通過數(shù)據(jù)驅(qū)動(dòng)的范式提升性能，大幅降低人工處理各種長尾問題的難度。在AI 2.0時(shí)代，系統(tǒng)將由一個(gè)統(tǒng)一的通用基礎(chǔ)大模型來應(yīng)對(duì)多源數(shù)據(jù)輸入，完成多種復(fù)雜任務(wù)，這一基礎(chǔ)模型應(yīng)該具備感知萬物、知曉常識(shí)和理解推理的能力，智能駕駛、機(jī)器人的基礎(chǔ)模型本質(zhì)上是同一類基礎(chǔ)模型。

端到端與大模型上車進(jìn)行時(shí)

智能汽車是邁向通用機(jī)器人的必要階段

近年來，智駕系統(tǒng)正在從傳統(tǒng)的單傳感器CNN感知，逐步升級(jí)到多傳感器CNN BEV，基于Transformer的BEV和Occupancy方案，并正在向端到端大模型演進(jìn)。隨著規(guī)控部分逐步模型化，中間沒有規(guī)則介入，因而在海量高質(zhì)量數(shù)據(jù)驅(qū)動(dòng)下，性能天花板會(huì)大幅提升，并大幅降低了應(yīng)對(duì)長尾問題的人工參與度，使得軟件工程量最多可下降99%。此外，視覺大模型的上車，幫助智駕系統(tǒng)進(jìn)一步增加了對(duì)物理世界復(fù)雜語義的理解，使駕駛的行為更接近于人，提升了對(duì)未知場(chǎng)景的泛化處理能力。

梁爽指出，智能汽車將是未來邁向通用機(jī)器人的一個(gè)必要階段，例如TESLA的Optimus機(jī)器人和智能汽車采用了同樣的FSD平臺(tái)，并且在系統(tǒng)配置、功能任務(wù)上相同。雖然兩者的系統(tǒng)組成和迭代升級(jí)高度相似，但機(jī)器人的維度更高、任務(wù)更復(fù)雜，大模型下沉部署到邊緣側(cè)的設(shè)備里，形成一個(gè)“Robot-Brain”，會(huì)成為行業(yè)發(fā)展的關(guān)鍵。

大模型落地邊緣側(cè)存在較大挑戰(zhàn)

軟硬件協(xié)同優(yōu)化是現(xiàn)實(shí)可行的落地路徑

過去十年被稱為AI加速器的黃金十年，CNN加速器的能效已經(jīng)提升到了100TOPS/W級(jí)別。大模型的規(guī)模以及參數(shù)增長速度遠(yuǎn)超CNN時(shí)代，大幅超出了傳統(tǒng)計(jì)算硬件的增長速度。而當(dāng)前大模型的處理器能效仍小于1TOPS/W，與邊緣側(cè)應(yīng)用需求存在兩個(gè)數(shù)量級(jí)的差距，嚴(yán)重限制了大模型的落地。

（摘選自汪玉教授發(fā)表于2024年1月的報(bào)告《端側(cè)大模型推理，智能芯片的現(xiàn)狀與展望》）

目前很多手機(jī)端本地部署的2B以內(nèi)的“小”模型，在應(yīng)用到邊緣側(cè)場(chǎng)景時(shí)，通常會(huì)出現(xiàn)歷史信息遺忘等能力限制，而需求量更大、效果顯著提升的7B量級(jí)以上的大模型，通常難以部署到現(xiàn)有的邊緣側(cè)芯片上，主要原因包括：（1）傳統(tǒng)架構(gòu)矩陣算力缺口明顯，大模型中50-80%算力需求在Attention層中的各類矩陣計(jì)算，并且KV矩陣有明顯稀疏性，需要專項(xiàng)支持；（2）大模型的參數(shù)量和帶寬需求巨大，單7B級(jí)別的浮點(diǎn)模型就需要28GByte的存儲(chǔ)空間，且權(quán)重的局域性比較低，所以大模型計(jì)算處理的過程需要頻繁地對(duì)外存進(jìn)行讀取，每個(gè)Token的帶寬需求都會(huì)大于10GB/s；（3）當(dāng)前架構(gòu)精度類型不足，計(jì)算精度傳統(tǒng)的CNN網(wǎng)絡(luò)通常可以用INT8實(shí)現(xiàn)較好的處理效果，而大模型中的各類算子會(huì)需要諸如INT4/FP8/BF16等不同精度的計(jì)算支持，并且像激活層、Norm層等的數(shù)據(jù)動(dòng)態(tài)范圍大，導(dǎo)致很多已有的量化算法也不能很好地支持。

從提升大模型在邊緣側(cè)處理能效的方法來看，一種是通過提升工藝水平scaling down，但受摩爾定律和國際形勢(shì)的影響，很難再繼續(xù)持續(xù)；另一種是通過新器件和新系統(tǒng)，但應(yīng)用的成熟度還有待技術(shù)上的進(jìn)一步提升與完善。但在當(dāng)下來看最為現(xiàn)實(shí)的實(shí)現(xiàn)手段，就是針對(duì)大模型應(yīng)用來做軟硬件協(xié)同優(yōu)化，軟件上通過新的混合量化方法以及稀疏化處理，硬件上則針對(duì)大模型中常見的算法結(jié)構(gòu)進(jìn)行加速設(shè)計(jì)，從而整體上實(shí)現(xiàn)2-3個(gè)數(shù)量級(jí)的能效提升。

針對(duì)大模型任務(wù)新需求深度優(yōu)化

超星未來實(shí)現(xiàn)邊緣側(cè)AGI計(jì)算行業(yè)領(lǐng)先

超星未來主要面向各類邊緣智能場(chǎng)景，提供以AI計(jì)算芯片為核心、軟硬件協(xié)同的高能效計(jì)算方案，致力于成為邊緣側(cè)AGI計(jì)算的引領(lǐng)者。

「平湖/高峽」NPU：團(tuán)隊(duì)十年磨一劍，實(shí)現(xiàn)性能行業(yè)天花板

針對(duì)智能駕駛及大模型所需要的神經(jīng)網(wǎng)絡(luò)計(jì)算任務(wù)，超星未來自研了高性能AI處理核心「平湖」和「高峽」?！钙胶筃PU主要針對(duì)以CNN和少量Transformer的感知類任務(wù)提供高效的計(jì)算，「高峽」NPU則是面向高階智駕以及大模型的實(shí)時(shí)處理專門設(shè)計(jì)的加速核心。

其中「平湖」NPU針對(duì)主流CNN/Transformer模型的推理延遲以及幀率均為行業(yè)最領(lǐng)先水平，與某款市場(chǎng)上被廣泛認(rèn)可的競品相比，單位算力的推理幀率在CNN任務(wù)上提高10倍，Transformer任務(wù)提高25倍。

「高峽」NPU架構(gòu)采用了混合粒度的指令集設(shè)計(jì)，單Cluster可實(shí)現(xiàn)40TOPS算力，支持INT4/INT8/FP8/BF16多種不同計(jì)算精度，并且在內(nèi)部緩存設(shè)計(jì)上做了優(yōu)化設(shè)計(jì)，另外針對(duì)Sparse Attention和三維稀疏卷積，設(shè)計(jì)了專用的加速結(jié)構(gòu)。通過這些優(yōu)化設(shè)計(jì)，「高峽」NPU實(shí)現(xiàn)了對(duì)典型的生成式大模型的實(shí)時(shí)計(jì)算支持，LLaMA3-8B生成速度最高可達(dá)60tokens/s。此外，「高峽」NPU可以用相較NVIDIA Orin芯片1%的計(jì)算邏輯面積，來實(shí)現(xiàn)近乎等同的三維稀疏卷積處理速率。

「驚蟄」系列芯片：已于多領(lǐng)域批量落地，最新產(chǎn)品實(shí)現(xiàn)大模型邊緣側(cè)實(shí)時(shí)計(jì)算

基于自研的NPU核心，超星未來在2022年底發(fā)布了邊緣側(cè)AI計(jì)算芯片「驚蟄R1」，NPU算力為16TOPS@INT8，典型功耗僅7-8W，從而可以支撐起各類系統(tǒng)方案的自然散熱設(shè)計(jì)。「驚蟄R1」目前已在汽車、電力、煤礦以及機(jī)器人等領(lǐng)域?qū)崿F(xiàn)了批量落地。

超星未來也即將發(fā)布「驚蟄」系列下一代芯片，可實(shí)現(xiàn)對(duì)大模型的實(shí)時(shí)處理，在12nm制程下將等同于驍龍8Gen3、天璣9300等SOTA手機(jī)芯片的處理效果。按照超星未來的芯片產(chǎn)品發(fā)展路徑圖，公司將繼續(xù)保持產(chǎn)品矩陣的可擴(kuò)展性，從邊緣感知到智駕升級(jí)，逐步邁向“Robot-Brain”。

「魯班」模型部署工具鏈：集成大模型優(yōu)化新方法，軟件協(xié)同實(shí)現(xiàn)40倍性能提升

在高效硬件架構(gòu)的基礎(chǔ)上，超星未來面向神經(jīng)網(wǎng)絡(luò)應(yīng)用打造深度優(yōu)化的「魯班」工具鏈，可使邊緣側(cè)推理速度提高40倍以上，具體包括：

（1）業(yè)內(nèi)領(lǐng)先的混合精度量化工具，支持PTQ/QAT/AWQ功能，支持INT4/INT8/FP8/BF16精度，量化損失小于1%；

（2）高效模型優(yōu)化工具，支持敏感度分析、蒸餾、Lora，在精度損失小于1%的情況下，模型壓縮率超10倍；

（3）高性能編譯工具，提供豐富的計(jì)算圖優(yōu)化技術(shù)及面向異構(gòu)核心的高效指令調(diào)度，推理效率可提高4-5倍以上。

特別針對(duì)大模型任務(wù)，「魯班」通過特有的稀疏離群點(diǎn)保持和混合位寬量化的方法，可將權(quán)重位寬下探到平均2.8bit。基于稀疏掩膜的方法，可實(shí)現(xiàn)在模型處理能力相當(dāng)?shù)那闆r下，將LLaMA3-8B壓縮90%以上，大幅縮減了模型的參數(shù)和計(jì)算量。

「倉頡」數(shù)據(jù)閉環(huán)平臺(tái)：實(shí)現(xiàn)數(shù)據(jù)自動(dòng)化生產(chǎn)，構(gòu)建應(yīng)用迭代閉環(huán)

在大模型時(shí)代，高質(zhì)量算法迭代需要功能強(qiáng)大的數(shù)據(jù)閉環(huán)工具。因此超星未來打造了「倉頡」平臺(tái)，包括數(shù)據(jù)管理、數(shù)據(jù)挖掘、數(shù)據(jù)增強(qiáng)、真值生產(chǎn)、模型生產(chǎn)和算法評(píng)測(cè)等功能，并且在多個(gè)環(huán)節(jié)都應(yīng)用了大模型來提供功能上的增強(qiáng)。

基于該平臺(tái)，通過構(gòu)建完整流程，客戶可以從環(huán)境中獲取有效數(shù)據(jù)，并盡可能降低人工的參與程度，實(shí)現(xiàn)自動(dòng)的數(shù)據(jù)挖掘和標(biāo)注，從而助力客戶實(shí)現(xiàn)數(shù)據(jù)驅(qū)動(dòng)算法的迭代。目前「倉頡」平臺(tái)已為車企、Tier1等客戶提供了服務(wù)，同時(shí)也在延伸為機(jī)器人客戶提供支持的能力。

腳踏實(shí)地，快步向前

為客戶提供高效的“AI+”

基于團(tuán)隊(duì)在AI領(lǐng)域十余年的研發(fā)與實(shí)踐經(jīng)歷，超星未來緊跟AI 1.0到AI 2.0的發(fā)展路徑，不斷打磨核心產(chǎn)品，實(shí)現(xiàn)AI+X應(yīng)用落地。

在邊緣側(cè)場(chǎng)景，超星未來已在電力、煤礦等泛安防領(lǐng)域?qū)崿F(xiàn)了芯片產(chǎn)品的批量落地，實(shí)現(xiàn)了規(guī)模化的營收回報(bào)，并通過落地，持續(xù)迭代產(chǎn)品相關(guān)生態(tài)，形成對(duì)智能駕駛與AGI等長周期方向的反哺?！霸诋?dāng)前惡劣的市場(chǎng)環(huán)境下，實(shí)現(xiàn)快速的落地才是生存的王道?！?/p>

在智能駕駛場(chǎng)景，「驚蟄」系列芯片可支持多維智駕解決方案，如智能前視一體機(jī)、雙目前視方案、5-7V高性價(jià)比行泊一體、11V1L高性能行泊一體等，并涵蓋主流的行車、泊車以及智能駕駛和機(jī)器人通用的雙目功能。相關(guān)產(chǎn)品的參考解決方案已基于實(shí)車完成了打通和工程優(yōu)化。目前，超星未來已與某行業(yè)頭部商用車OEM合作上車，同時(shí)與多家乘用車OEM客戶達(dá)成業(yè)務(wù)合作，預(yù)計(jì)最早于2025年實(shí)現(xiàn)批量上車。

在邊緣側(cè)大模型推理場(chǎng)景，基于「魯班」工具鏈的軟硬件協(xié)同優(yōu)化能力，超星未來最新芯片產(chǎn)品在驗(yàn)證平臺(tái)上實(shí)測(cè)ChatGLM-6B可以達(dá)到超過15tokens/s的生成速度，10W量級(jí)的芯片即可支持高性能大模型的邊緣落地；「高峽」NPU平臺(tái)Stable Diffusion 1.5版本可以在3.5s內(nèi)完成圖片生成?；谝陨夏芰Γ俏磥硪雅c行業(yè)頭部的機(jī)器人客戶、大模型廠商等達(dá)成合作。

道阻且長，行則將至

共同構(gòu)建AI 2.0新時(shí)代

“我們對(duì)技術(shù)發(fā)展的預(yù)估和意識(shí)通常是低估和滯后的，技術(shù)的發(fā)展一旦突破某個(gè)閾值，就會(huì)爆炸式地增長、覆蓋，比如從ChatGPT的發(fā)布到現(xiàn)如今的‘千模大戰(zhàn)’。不論是高階的智能駕駛，還是通用機(jī)器人應(yīng)用，只要技術(shù)范式是正確的，人員與資金持續(xù)投入，‘ChatGPT時(shí)刻’就一定會(huì)到來，而且這個(gè)時(shí)刻或許會(huì)比我們想象得來得更快。”梁爽表示，“超星未來期待與各位合作伙伴攜手，從AI 1.0時(shí)代逐步邁進(jìn)，共建AI 2.0的新時(shí)代?！?/p>

免責(zé)聲明：市場(chǎng)有風(fēng)險(xiǎn)，選擇需謹(jǐn)慎！此文僅供參考，不作買賣依據(jù)。

關(guān)鍵詞：

>>返回頻道首頁

返回本網(wǎng)站首頁

[責(zé)任編輯：ruirui]

熱點(diǎn)排行

關(guān)于我們| 客服中心| 廣告服務(wù)| 建站服務(wù)| 聯(lián)系我們

中國焦點(diǎn)信息網(wǎng) 版權(quán)所有滬ICP備2022005074號(hào)-20，未經(jīng)授權(quán)，請(qǐng)勿轉(zhuǎn)載或建立鏡像，違者依法必究。