本文來自于微信公眾號(hào) 藍(lán)洞商業(yè)(ID:value_creation),作者:于瑋琳。
科技的浪潮幾十年一個(gè)輪回,不同的劇本卻總是響起相似的鼓點(diǎn)。
如果說,一年前ChatGPT的驚艷現(xiàn)身,是屬于大模型時(shí)代的「iPhone時(shí)刻」;那么,7月間Meta將Llama2開源,則被認(rèn)為是拉開了大模型時(shí)代的IOS與安卓之爭。
但區(qū)別于移動(dòng)互聯(lián)網(wǎng)時(shí)代,大模型的起跑線上,不是寡頭的一枝獨(dú)秀,而是各國廠商的百家爭鳴。在Open AI上演「奧特曼去哪兒」的大戲時(shí),越來越多國產(chǎn)廠商磨刀霍霍,醞釀著一場開源大模型時(shí)代的颶風(fēng)。
正如今年9月百川智能宣布開源大模型Baichuan2-7B等版本時(shí),創(chuàng)始人王小川的自信發(fā)言:「從今天開始,當(dāng)我發(fā)布Baichuan2之后,再用LLaMA2作為一個(gè)開源模型的時(shí)代已經(jīng)過去了�!�
加速奔跑的遠(yuǎn)不止百川一家,如阿里云、智譜AI和清華EKG都選擇了開源路線。就在12月的第一天,作為國內(nèi)首家開源的科技大廠,阿里云再次向行業(yè)投出了一枚「重磅炸彈」,其宣布開源通義千問720億參數(shù)模型Qwen-72B、18億參數(shù)模型Qwen-1.8B和音頻大模型Qwen-Audio。
這意味著,通義千問的開源大模型矩陣再次擴(kuò)容,真正實(shí)現(xiàn)了「全尺寸、全模態(tài)」開源。
不難看出,「開源、開放」是近期阿里云頻頻強(qiáng)調(diào)的關(guān)鍵詞。就在一個(gè)月前的云棲大會(huì)上,阿里巴巴集團(tuán)董事會(huì)主席蔡崇信曾強(qiáng)調(diào),「隨著大模型技術(shù)的迅速發(fā)展,智能化時(shí)代正在開啟,阿里云要打造AI時(shí)代一朵最開放的云�!�
全尺寸參數(shù)大模型的開源印證了這一決心,這對(duì)于創(chuàng)業(yè)者和開發(fā)者而言帶來的影響是巨大的。性價(jià)比、性能、生態(tài)繁榮,已經(jīng)依稀讓他們看到了屬于自己行業(yè)的「奇點(diǎn)」一角。
正如業(yè)內(nèi)人士普遍認(rèn)同的,未來90%的企業(yè)會(huì)傾向基于開源大模型發(fā)展。從科研到創(chuàng)業(yè)再到千行百業(yè)的開發(fā)者,依托于開源生態(tài),迎來屬于這個(gè)時(shí)代的「智能涌現(xiàn)」。
1
開源閉源,誰是終局?
「想努力學(xué)習(xí),又控制不住想玩游戲」。
「看起來你對(duì)學(xué)習(xí)有熱情,但也有些迷茫,有沒有制定一個(gè)學(xué)習(xí)計(jì)劃呢?」
以上酷似心理咨詢的對(duì)話,發(fā)生在一款心理健康大模型「MindChat漫談」上,其研發(fā)團(tuán)隊(duì)為華東理工大學(xué)·X-D Lab(心動(dòng)實(shí)驗(yàn)室)。
「孤獨(dú)是一種普遍的社會(huì)情緒」,團(tuán)隊(duì)成員顏鑫說,「心理服務(wù)在整個(gè)社會(huì)有很大的需求空間,但供給匱乏」。
而依托大模型應(yīng)用的落地,科研工作者正在把心理咨詢變得普惠,從奢侈品變成常用品。其驅(qū)動(dòng)力,按照顏鑫的話說,是「為場景找技術(shù)」,而非「為技術(shù)找場景」。
無論開源還是閉源,大模型技術(shù)路徑的選擇如何,都離不開場景落地的終局挑戰(zhàn)。正如阿里云CTO周靖人所言「今天閉源、開源都是一種手段,關(guān)鍵是今天怎么能夠讓這些模型,快速應(yīng)用在各種各樣的場景里面。」
不可否認(rèn)的是,雖然開源閉源并非單選題,但對(duì)于開發(fā)者和行業(yè)創(chuàng)業(yè)者等B端用戶來說,開源的優(yōu)勢顯而易見。
從顏鑫團(tuán)隊(duì)的應(yīng)用來看,在注重隱私的醫(yī)療、心理場景,開源大模型更符合私有化部署的需求,而對(duì)于有鹿科技所在的具身機(jī)器人領(lǐng)域來說,開源意味著可以隨著行業(yè)發(fā)展、需求變化而靈活調(diào)整的可能性。
作為專注于大模型+具身智能領(lǐng)域的科技創(chuàng)新企業(yè),有鹿當(dāng)前的客戶主要集中在清潔領(lǐng)域和新能源領(lǐng)域。
拿清潔機(jī)器人來說,市面上絕大多數(shù)的相關(guān)機(jī)器人只能進(jìn)行機(jī)械化的全覆蓋清掃。但搭載了大語言模型的機(jī)器人,則可以對(duì)物理世界有著更清晰的理解,這帶來的是真正的「智能」響應(yīng)。
舉個(gè)例子,當(dāng)物業(yè)經(jīng)理說:「一號(hào)樓門前有個(gè)可樂瓶,你來掃一掃�!箍此坪唵蔚闹噶钚枰獧C(jī)器人理解什么是「門前」,能夠區(qū)分「水瓶」、「礦泉水瓶」和「可樂瓶」,最后在精準(zhǔn)作業(yè)目標(biāo)的指引下,規(guī)劃出清晰的作業(yè)軌跡。
「當(dāng)機(jī)器人沒有辦法理解人類這一串描述代表什么時(shí),它就沒有辦法實(shí)現(xiàn)我們所希望它在物理世界達(dá)到的智能性水平,這是有鹿機(jī)器人和通義的最大結(jié)合點(diǎn)。」有鹿創(chuàng)始人陳俊波說,「我們需要的不是一個(gè)一成不變的、智能性水平的大語言模型,而是隨著數(shù)據(jù)的積累,能變得越來越聰明的大語言模型。閉源大模型顯然做不到這一點(diǎn)。在我們的業(yè)態(tài)里面,終局一定是開源模型�!�
從PC時(shí)代的Windows和Linux,到移動(dòng)互聯(lián)網(wǎng)的安卓和IOS,再到SaaS發(fā)展史上的開源閉源之爭,歷史總是反復(fù)上演。
閉源的陣營高舉著「簡單易用」的旗幟,ChatGPT挺身站在陣前,成為「大眾知名度」的代表。而在開源的陣營里,是無可否認(rèn)的開放性生態(tài)優(yōu)勢,以及更低的使用成本,成為各行各業(yè)觸摸時(shí)代脈搏的捷徑所在。
最直觀的例子是OpenAI,業(yè)內(nèi)人士透露,大模型訓(xùn)練和運(yùn)行耗費(fèi)巨大的算力資源和數(shù)據(jù),僅在2022年,OpenAI 總計(jì)花費(fèi)就達(dá)到了5.4億美元,而其產(chǎn)生的收入只有2800萬美元——這是行業(yè)應(yīng)用者無法接受的投入產(chǎn)出比。
鮮明的對(duì)比是,在12月1號(hào)的通義千問發(fā)布會(huì)上,一位個(gè)人開發(fā)者土土表示,他在用一種很省錢的方式玩開源模型�!冈诩依镔I個(gè)服務(wù)器、扔三四塊顯卡上去,下載Qwen、讓它在服務(wù)器上運(yùn)行,再搞個(gè)FRP反向代理,從阿里云上買最便宜的30多塊錢一個(gè)多月的服務(wù)就行,這樣就能通過外網(wǎng)訪問家里的服務(wù)器,在單位里也能用通義千問做實(shí)驗(yàn)�!�
2
開源,不是一味求大
7月19日,Meta的Llama2宣布開源,「可商用」三個(gè)字引爆了大模型創(chuàng)業(yè)圈,開源漸成主流趨勢,獵豹移動(dòng)CEO傅盛甚至感嘆,「有的人哭暈在廁所,而有的人在夢中也能笑醒」。
大模型加速商業(yè)化時(shí)代到來,海內(nèi)外風(fēng)云攪動(dòng),但勝負(fù)遠(yuǎn)未揭曉。
據(jù)「深網(wǎng)騰訊新聞」報(bào)道,越來越多創(chuàng)業(yè)者認(rèn)為,相比Llama2尤其是Llama2的漢化版本,國內(nèi)開源大模型的水平和能力其實(shí)不相上下。而雖然Llama2的預(yù)訓(xùn)練數(shù)據(jù)相比第一代擴(kuò)大了一倍,但中文預(yù)訓(xùn)練數(shù)據(jù)的比例依然少的可憐,僅為0.13%。
中文能力之外,另一個(gè)現(xiàn)實(shí)是,訓(xùn)練Llama2并不便宜,HuggingFace機(jī)器學(xué)習(xí)科學(xué)家內(nèi)森·蘭伯特估算,Llama2的訓(xùn)練成本可能超過2500萬美元,不比OpenAI三年前訓(xùn)練GPT-3的花費(fèi)少。
以上種種,都給國產(chǎn)廠商的開源大模型留下了機(jī)會(huì)窗口。性能參數(shù)、性價(jià)比、可靠性,正成為搶占先機(jī)的關(guān)鍵詞。
僅僅在過去的一個(gè)月內(nèi),國內(nèi)最大開源模型的參數(shù)紀(jì)錄就被刷新了N次。
從元象XVERSE開源650億參數(shù)高性能通用大模型XVERSE-65B;到浪 潮信息發(fā)布完全開源且可免費(fèi)商用的源2.0基礎(chǔ)大模型,包含1026億、518億、21億不同參數(shù)規(guī)模;再到阿里云正式開源了通義千問720億參數(shù)的大模型Qwen-72B。
其中,Qwen-72B延續(xù)通義千問預(yù)訓(xùn)練模型一貫以來的強(qiáng)勢表現(xiàn),在10個(gè)權(quán)威測評(píng)集奪得開源模型最優(yōu)成績,在部分測評(píng)中超越閉源的GPT-3.5和GPT-4。
國產(chǎn)大模型廠商瘋狂向上摸高,但參數(shù)尺寸遠(yuǎn)不是開源大模型的最關(guān)鍵指標(biāo)。對(duì)于行業(yè)客戶而言,他們要考慮的更多。
以顏鑫所在的心理學(xué)科研團(tuán)隊(duì)來說,在做模型選型時(shí),至少要考慮三個(gè)問題:是否可持續(xù)?是否有生態(tài)?以及是否滿足場景需求?
科研團(tuán)隊(duì)沒有資源從頭訓(xùn)練基礎(chǔ)模型,但科研需要持續(xù)投入,為跟風(fēng)、吃紅利而生的大模型不可持續(xù)。而主流的、穩(wěn)定的模型架構(gòu),能最大限度發(fā)揮生態(tài)的力量,匹配上下游的環(huán)境。而從這兩點(diǎn)出發(fā),背靠阿里生態(tài)的通義千問成為了高分候選者。
此外,心理領(lǐng)域需要溫柔、知性、能共情的大模型;教育大模型要有豐富的知識(shí)、優(yōu)秀的計(jì)算能力和調(diào)用外部工具的能力。顏鑫告訴我們一個(gè)有趣的現(xiàn)象,作為人工智能的代表,不同廠家的模型性格各異,從知識(shí)結(jié)構(gòu)來說,有的模型像文科生,而通義千問更像理科生。這也成為他們最終建立合作的關(guān)鍵因素。
事實(shí)上,大模型從來不是越大越好,而是越合適越好,正如周靖人此前所說,「未來,一定不是one size fits all」,不同的場景適配不同的參數(shù),不同的形式,屆時(shí)大模型將走過野蠻生長階段,來到精耕細(xì)作。
「開源模型有各種尺寸,總有一款適合你,如果試過以后發(fā)現(xiàn)所有的模型都不行,那可能這個(gè)需求本來就不成立�!刮磥硭俣葎�(chuàng)始人秦續(xù)業(yè)的創(chuàng)業(yè)方向是分布式推理框架。
在服務(wù)客戶的過程中,他發(fā)現(xiàn),目前用戶大部分都是用13B以下較小尺寸的模型。如外接知識(shí)庫做問答應(yīng)用等,完全夠用;如果需要具備一定的邏輯推理能力的模型,20-30B的中等尺寸模型是比較好的選擇。在Agent或者需要強(qiáng)大推理能力的場景中,70B+大模型更有優(yōu)勢。
大模型百花齊放,而創(chuàng)業(yè)者各取所需。這一定程度上解釋了為什么通義千問發(fā)布會(huì)強(qiáng)調(diào)的是「全尺寸」、「全模態(tài)」,Qwen-72B「向上摸高」,Qwen-1.8B則「向下探底」,成為市面上尺寸最小的中國開源大模型,這意味著其推理所需的最小顯存不到1.5GB,實(shí)現(xiàn)了在手機(jī)等消費(fèi)級(jí)終端部署。
另一個(gè)維度則是在感官上實(shí)現(xiàn)「能看」也「能聽」。
繼今年8月,通義千問開源了視覺理解大模型Qwen-VL之后,本次除LLM之外,通義千問團(tuán)隊(duì)首次開源了音頻理解大模型Qwen-Audio。不同于僅能處理人聲信號(hào)的傳統(tǒng)語音模型,也能夠感知和理解人聲、自然聲、動(dòng)物聲、音樂聲等各類語音信號(hào)。
3
成就最開放的一朵云?
被譽(yù)為開源運(yùn)動(dòng)的圣經(jīng),埃里克·斯蒂芬·雷蒙所撰寫的《大教堂與集市》中有這樣一段表述:
Linux具有顛覆性。五年前(1991年),誰曾想過一款世界級(jí)操作系統(tǒng)會(huì)以如此神奇的方式誕生,它由遍布全球、僅通過脆弱的互聯(lián)網(wǎng)紐帶連接的數(shù)千名兼職開發(fā)人員的努力構(gòu)建而成。這完全出乎我的意料。
而這「出乎意料」的故事,在每一個(gè)科技浪潮中都反復(fù)上演。
此前在一份被認(rèn)為是意外泄露的文件中,一位谷歌的內(nèi)部研究人員表示「我們沒有護(hù)城河,OpenAI也沒有�!�
而之所以會(huì)有這樣的「覺悟」,就在于一股不可小覷的第三方力量「開源社區(qū)」,以其中的頂流Hugging Face為例,其提供的高質(zhì)量開源模型與工具,最大限度地普惠了開發(fā)者,降低了大模型的技術(shù)門檻。
開放生態(tài)是不可逆的潮流趨勢,典型的印證是,今年8月,Hugging Face獲得了2.35億美元的新一輪融資,其背后的投資者是谷歌、亞馬遜、英偉達(dá)、Salesforce、AMD、英特爾、IBM 和高通。
而在國內(nèi),阿里云是將開源生態(tài)進(jìn)行的最為徹底的大模型廠商。
事實(shí)上,本次已經(jīng)是阿里云第四次推出免費(fèi)的開源模型。而在9月份,阿里云在開源通義千問140億參數(shù)模型 Qwen-14B以及其對(duì)話模型Qwen-14B-Chat的同時(shí),一并開放了相關(guān)的數(shù)據(jù)報(bào)告,包括與預(yù)訓(xùn)練、對(duì)齊等一系列模型訓(xùn)練過程有關(guān)的數(shù)據(jù)、方法都在報(bào)告中得以詳細(xì)呈現(xiàn)。
「不單單開源我們的模型,把報(bào)告也分享給大家,能夠讓大家體驗(yàn)到模型各式各樣的表現(xiàn),更有效地幫助大家進(jìn)行模型的應(yīng)用�!怪芫溉吮硎�。
早在去年11月,阿里云首次在業(yè)界提出「Model as a Service」理念,并推出國內(nèi)首個(gè)AI模型社區(qū)「魔搭」,開發(fā)者可以在社區(qū)上下載開源AI模型,并直接調(diào)用阿里云的算力和一站式的AI大模型訓(xùn)練及推理平臺(tái)。
僅僅在一年后,云棲大會(huì)上阿里云給出的數(shù)據(jù)顯示:魔搭社區(qū)已有超過2300個(gè)模型,開發(fā)者超過280萬,模型下載次數(shù)也超過了1億多次。
在阿里云的愿景中,魔搭社區(qū)應(yīng)是一個(gè)「自由市場」,模型生產(chǎn)者可以在這里上傳模型、驗(yàn)證技術(shù)能力,探索應(yīng)用場景和商業(yè)化模式。
而這樣的模式下,國產(chǎn)模型廠商之間不再是彼此競爭的「孤島」,據(jù)了解,百川智能的第一款70億參數(shù)規(guī)模的中英文語言模型 Baichuan-7B,和130億參數(shù)通用大語言模型Baichuan-13B-base和對(duì)話模型Baichuan-13B-Chat,均在發(fā)布當(dāng)天上架了魔搭社區(qū),屬于國內(nèi)首發(fā)。
合抱之木,生于毫末,九層之臺(tái),起于壘土。
高質(zhì)量開源的基礎(chǔ)大模型,在開放生態(tài)的推動(dòng)下不斷迭代優(yōu)化,進(jìn)而推動(dòng)AI應(yīng)用的創(chuàng)新涌現(xiàn),這一整條清晰的商業(yè)路徑正悄然形成增長飛輪,讓AI普惠不再是一句虛言。
榜單收錄、高管收錄、融資收錄、活動(dòng)收錄可發(fā)送郵件至news#citmt.cn(把#換成@)。
海報(bào)生成中...