最近,高通發(fā)布了新一代PC筆記本平臺驍龍X2 Elite系列,各方面規(guī)格都取得突飛猛進(jìn),比如CPU頻率最高首次達(dá)到5GHz,NPU AI算力高達(dá)80 TOPS。
要知道,AMD、Intel新一代平臺的NPU最高都只有50 TOPS,這自然讓高通鶴立雞群。
高通技術(shù)公司產(chǎn)品管理副總裁Vinesh Sukumar在接受媒體采訪時(shí)解釋說,開始設(shè)計(jì)驍龍X2 Elite的時(shí)候,目標(biāo)就是讓AI算力比第一代驍龍X Elite翻一倍,同時(shí)在軟件層面還能帶來10-15%的提升。
至于為何需要如此之高的NPU算力,一是想要提升大模型的首個Token生成時(shí)間,非常依賴算力,而更高的TOPS可以大大降低首個token生成時(shí)間的時(shí)延。
二是對于內(nèi)容創(chuàng)作者來說同樣如此,無論是圖像生成還是視頻生成,都對計(jì)算要求非常高,PC子系統(tǒng)也需要更強(qiáng)的計(jì)算能力,從而降低時(shí)延。
最后一點(diǎn)是為了支持音頻、視頻和文本等多任務(wù)并發(fā)處理,同樣需要更多的TOPS。
隨著手機(jī)端側(cè)AI應(yīng)用的發(fā)展,大模型的參數(shù)量、體積控制,以及內(nèi)存的挑戰(zhàn),都是迫切需要解決的問題。
Vinesh Sukumar認(rèn)為,高通和大多數(shù)OEM伙伴,包括整個生態(tài)系統(tǒng),都在朝著30-40億參數(shù)的模型發(fā)展,不僅包括通義千問系列、微軟Phi系列,甚至蘋果的基礎(chǔ)模型也都在30-50億參數(shù)范圍內(nèi),可以認(rèn)為這是在邊緣設(shè)備上真正推動豐富體驗(yàn)的最佳區(qū)間。
當(dāng)然,可以有多個30億參數(shù)的模型,但這是一個起始線。
針對手機(jī)內(nèi)存問題,目前的解決方案就是模型量化,從16位整數(shù)運(yùn)算轉(zhuǎn)向8位整數(shù)運(yùn)算,再從8位轉(zhuǎn)到4位,現(xiàn)在高通與微軟合作推出了全球首個INT2 2-bit模型。
INT2在帶寬和內(nèi)存占用方面具有優(yōu)勢,對比INT4可以節(jié)省約50%的帶寬和內(nèi)存占用,可以更好地支持大語言模型(LLM)、大視覺模型(LVM)等的運(yùn)行。
INT2的落地需要軟硬兩個層面的支持,其中硬件層面由第五代驍龍8至尊版支持,而軟件層面包括編寫專門的庫、內(nèi)核和運(yùn)算符。
高通預(yù)計(jì),隨著更多數(shù)據(jù)類型的創(chuàng)新,可以支持更大規(guī)模的模型,同時(shí)減少內(nèi)存占用。
比如說,一個70億參數(shù)的模型在16位精度下大約占用14GB內(nèi)存,使用INT4則是4GB,而INT2精度就只需要2GB。
當(dāng)然,2-bit下的精度控制非常重要,但并不是每一層數(shù)據(jù)都是INT2精度,有的是INT2,有的是INT4,有的是INT8,不一而足,也就是通過支持混合精度以保持準(zhǔn)確性。
如果這么做仍然有準(zhǔn)確率損失,可以使用量化感知訓(xùn)練,重新訓(xùn)練模型,以確保將損失降到最低。
廣告
另外,無論AI手機(jī)還是AI PC,很多人都在尋找所謂“殺手級應(yīng)用”,但是在Vinesh Sukumar看來,高通有不同的見解。
當(dāng)前的AI已深度融入用戶的日常應(yīng)用,在影像、視頻、音頻等領(lǐng)域中無處不在,甚至在用戶毫無察覺的情況下自動工作。
高通始終都在追求用AI解決下一個重大命題,以此作為奮斗目標(biāo),但是提高生產(chǎn)力、改善體驗(yàn)的每一小步,都是關(guān)鍵的一步,因?yàn)楦咄ㄏ嘈牛挥袕男√幹郑拍軐?shí)現(xiàn)穩(wěn)健的成長。