科技創(chuàng)新浪潮奔涌,產(chǎn)業(yè)變革方興未艾。眼下技術(shù)迭代持續(xù)加速、產(chǎn)業(yè)邊界深度重構(gòu),高成長企業(yè)正以澎湃動能重塑全球產(chǎn)業(yè)格局。由清科創(chuàng)業(yè)、投資界、四川三江招商集團(tuán)共同主辦的“2025高成長企業(yè)CEO大會”于6月18-20日舉辦。
本屆大會特別走進(jìn)中國科技城——綿陽,依托綿陽作為國家戰(zhàn)略科技力量重要承載地的獨特優(yōu)勢,以“智匯科技城·創(chuàng)變新未來”為主題,旨在匯聚前沿科技項目,構(gòu)建資本+產(chǎn)業(yè)落地的創(chuàng)新生態(tài)閉環(huán)。
會上,面壁智能聯(lián)合創(chuàng)始人&CEO李大海發(fā)表題為《高效大模型路徑探索》的主旨發(fā)言。
以下為演講實錄,
經(jīng)投資界(ID:pedaily2012)編輯:
非常高興能夠來到綿陽參加今天的活動,綿陽擁有非常深厚的科技底蘊,此行也學(xué)到很多東西。
面壁智能成立于2022年8月,名稱來源于劉慈欣《三體》小說中的“面壁者計劃”,富有科技想象力。公司自創(chuàng)立之初即立志成為一家普惠型的通用人工智能(AGI)公司,希望未來的AGI技術(shù)人人可用、用得起,以此改善大眾生活。
從公司創(chuàng)業(yè)開始,團(tuán)隊始終專注于行業(yè)深耕,最早做模型訓(xùn)練,到推理框架,再到做智能體,在這個領(lǐng)域做了非常深的積累。2023年底,行業(yè)出現(xiàn)“百模大戰(zhàn)”情況,模型高度同質(zhì)化。團(tuán)隊在反思自身核心優(yōu)勢后,明確了“高效”是面壁智能的獨特標(biāo)簽。通過高效的訓(xùn)練和推理方法,面壁智能可在更小的參數(shù)規(guī)模下實現(xiàn)與大型模型相當(dāng)?shù)男Ч�,并進(jìn)一步深入探討“高效”的本質(zhì)來源。
借鑒芯片行業(yè)的“計算密度”概念(即摩爾定律),我們提出了大模型領(lǐng)域“能力密度”的新指標(biāo),用以衡量單位參數(shù)下模型所具備的知識和能力。分析發(fā)現(xiàn),大模型的知識密度是每100天再提升一倍。相對于摩爾定律的18個月提升一倍,大模型100天迭代速度快了5倍。由此發(fā)現(xiàn)大模型的知識密度提升的速度是芯片計算密度的提升速度的5倍,這是一個非�?斓淖兓俣�。
面壁智能為何能做出更高效的大模型?這源自我們的核心壁壘,就是在端側(cè)。現(xiàn)在大模型其實主要就是分云側(cè)跟端側(cè),在云側(cè),當(dāng)我們的模型的知識密度更高的時候,我們能夠取得更低的成本優(yōu)勢,但是在當(dāng)前成本優(yōu)勢在云側(cè)并不是一個最重要的因素,因為現(xiàn)在大家更多的是看各種測試榜單,你是不是能夠做出一個更聰明、效果更好的大模型,這是大家最關(guān)注的問題。很多大廠在競爭的時候,他有非常充分的預(yù)算。它可以通過補(bǔ)貼的方式去把成本的劣勢給它填補(bǔ)掉,這樣競爭的優(yōu)勢就是不明顯的。
但是在終端是不一樣的,我們在終端上其實面臨非常多的限制,比如算力、功耗散熱、以及內(nèi)存的帶寬等,在這些限制下,大家是在同一個起跑線上,我的知識密度越高,我就能夠在同樣的設(shè)備上做出更聰明的模型,所以知識密度在端側(cè)有非常大的價值。
面壁智能自2023年底起開始聚焦端側(cè)大模型,主要分成基座大模型,多模態(tài)大模型和全模態(tài)大模型。今年1月,正式發(fā)布全球首個具備實時“看、聽、說”能力的端側(cè)全模態(tài)模型。
今年 6 月,在北京智源大會上,我們發(fā)布了面壁小鋼炮4.0的模型MiniCPM 4.0,代號“前進(jìn)4”。這是我們公司的企業(yè)文化,特別喜歡去使用《三體》里面的各種各樣的元素去對產(chǎn)品和各種活動進(jìn)行命名。上個月阿里千問發(fā)了千問3的一系列模型,我們通過長上下文稀疏創(chuàng)新技術(shù),做到了長文本推理速度要比他們快非常多,能夠最快實現(xiàn)200倍的速度提升。
其實在2023、2024年,云側(cè)大模型在月之暗面的帶領(lǐng)下已經(jīng)卷了一波長上下文。今天我們在端側(cè)也要開始對長上下文進(jìn)行一個建設(shè),因為端側(cè)基座模型有了好的長文本能力,才能夠有更多的空間和能力去讓大家去構(gòu)建更加智能、個性化的上層應(yīng)用。我們不僅速度快,效果也是非常好的,我們有個0.5B模型是同一尺寸下效果最好的模型,遠(yuǎn)好于像谷歌 Gemma 3 1B 模型。背后涉及的技術(shù)在這里不展開,重點給大家講講我們持續(xù)發(fā)端側(cè)基座模型背后的原因。
現(xiàn)在大家都關(guān)注Agent,好的Agent 要有好的模型支撐,才能實現(xiàn)更好的能力。MiniCPM 4.0能夠比較流暢使用15種主流應(yīng)用,將這些應(yīng)用跟我們端側(cè)能力結(jié)合在一起,能有非常好的體驗。另外我們也做了一個類似Deep Research的產(chǎn)品——SurveyGo,把8B的模型放到PC上,能夠很好通過網(wǎng)上收到的資源去深入的分析,同時跟用戶本地的電腦上的私有文檔進(jìn)行結(jié)合分析,從而得到一個真正符合用戶個性化、可信、全面的Deep Research級別的報告。
端側(cè)模型擁有很高產(chǎn)業(yè)價值和廣闊應(yīng)用空間。端側(cè)模型與各類終端的結(jié)合不僅可以確保信息安全,保護(hù)用戶隱私,還可以提高服務(wù)可靠性,即使斷網(wǎng)也能保證服務(wù)運行,并且在未來高需求趨勢下,能以很低的成本提供智能服務(wù)。未來,面壁智能將持續(xù)打造同等參數(shù)下性能更高、成本更低的高效大模型,推動「端側(cè)大腦」在千行百業(yè)規(guī)模化應(yīng)用。
在智能汽車領(lǐng)域,面壁智能將端側(cè)模型部署于智能座艙,使其成為汽車的大腦協(xié)同,實現(xiàn)與環(huán)境協(xié)同,為駕駛者帶來更智能、更人性化的出行體驗。例如,通過艙外攝像頭識別施工路段后,系統(tǒng)可主動提示關(guān)閉車窗、啟用內(nèi)循環(huán),降低揚塵影響。這類應(yīng)用場景充分體現(xiàn)了端側(cè)模型在提升車輛交互與陪伴能力方面的獨特價值。
榜單收錄、高管收錄、融資收錄、活動收錄可發(fā)送郵件至news#citmt.cn(把#換成@)。
海報生成中...