作者丨暫存盤
編輯丨Han
2023年,國內(nèi)大模型領(lǐng)域人聲鼎沸。不過外行看熱鬧,內(nèi)行看門道,面對大模型的誘惑,許多創(chuàng)業(yè)者持謹(jǐn)慎態(tài)度,比如零假設(shè)科技CEO顧飛。
“大概三個月前,我們還是不太信任國內(nèi)大模型。但是差不多在兩個月之前,我們又試了一次百度的大模型,比想象要好很多。”顧飛回憶道。
零假設(shè)科技主要是為醫(yī)療專業(yè)人士,提供自動化的醫(yī)學(xué)內(nèi)容檢索、分析和生成工具。此前,醫(yī)學(xué)領(lǐng)域的產(chǎn)品的準(zhǔn)確性和易用性很難兩全,大模型出現(xiàn)后,顧飛看到了兩者平衡的可能性。
“我們是不可能從基礎(chǔ)大模型開始做,所以必須尋求基礎(chǔ)設(shè)施。”顧飛開始和大模型企業(yè)溝通。
“第一個接觸的是GPT,但客觀的說GPT不太適合中國人的思維或者闡述方式。我們也考察過行業(yè)的其他大模型,有的一旦提到開放API的時候就不愿意了,我們認(rèn)為這是不自信的表現(xiàn);有的可能是效果看起來好,但是實際真的API不會那么好。”
在一次次的溝通下,顧飛開始對大模型的信任感逐漸降低。眾里尋TA千百度,今年5月,百度啟動了“文心杯”創(chuàng)業(yè)大賽(以下稱為“文心杯”),試圖尋找基于文心大模型開發(fā)的應(yīng)用demo潛力股,零假設(shè)科技深度參與其中。
“百度愿意開放API接口。”顧飛重拾信任的理由很簡單。自身擁有專業(yè)的醫(yī)學(xué)知識庫及相關(guān)檢索推薦能力,他認(rèn)為文心大模型可以發(fā)揮強大的語言能力,幫助解決易用性的問題,二者一拍即合。“文心一言出來的文獻總結(jié)在意思上和GPT差異不是那么大,會更流暢,符合中國人的語言習(xí)慣。”
經(jīng)歷了喧囂的百團大戰(zhàn),大模型開始進入“亮劍”階段。如何平衡技術(shù)成本與可持續(xù)發(fā)展的天平,如何融合技術(shù)能力與實際應(yīng)用的縫隙,大模型企業(yè)更要“面面俱到”。
韜光養(yǎng)晦,深耕AI十余年的百度,是否有望成為中國大模型領(lǐng)域的“六邊形戰(zhàn)士”?
01 十年磨一劍,AI基礎(chǔ)能力沉淀
每一個時代風(fēng)口都不缺乏前赴后繼的挑戰(zhàn)者,但往往成功的機會是留給有準(zhǔn)備的人。做為中國大模型探索的先行者,百度的厚積薄發(fā)主要源于十余年的沉淀以及投入。
誕生之初,百度就和自然語言處理、信息檢索等AI技術(shù)有著密切聯(lián)系。2010年,百度開始探索更豐富的AI技術(shù),包括機器學(xué)習(xí)、深度學(xué)習(xí)、自然語言處理等技術(shù)。2013年,百度成立了世界上第一個深度學(xué)習(xí)研究院(IDL)。
在AI發(fā)展軌跡中,百度始終堅持長期主義,持續(xù)性投入。公開數(shù)據(jù)顯示,百度近十年累計研發(fā)投入超1400億元,核心研發(fā)投入曾連續(xù)7個季度占百度核心收入比例超過20%。
壓強式研發(fā)投入讓百度實現(xiàn)厚積薄發(fā),李彥宏曾提到,人類進入AI時代,IT技術(shù)的技術(shù)棧從過去的三層:芯片層、操作系統(tǒng)層和應(yīng)用層,變?yōu)楝F(xiàn)在的四層:芯片層、框架層、模型層和應(yīng)用層。百度如今在芯片層擁有昆侖芯,框架層有飛槳平臺,模型層以文心大模型為代表,應(yīng)用則有智能駕駛等場景。
根據(jù)李彥宏介紹,全棧布局的優(yōu)勢在于,可以在技術(shù)棧的四層架構(gòu)中,實現(xiàn)端到端優(yōu)化,大幅提升效率。比如:飛槳與文心協(xié)同,讓文心大模型3.5最新版本的模型效果提升50%,訓(xùn)練速度提升2倍,推理速度提升30倍。
基于深厚的技術(shù)優(yōu)勢以及生態(tài)開放,百度四層技術(shù)棧獨立作戰(zhàn)時也展現(xiàn)了強勁的表現(xiàn)力。
截至2022年12月,通信通院最新報告顯示,飛槳已經(jīng)成為中國深度學(xué)習(xí)市場應(yīng)用規(guī)模第一的深度學(xué)習(xí)框架和賦能平臺。最新數(shù)據(jù)顯示,已凝聚800萬名開發(fā)者,服務(wù)22萬家企事業(yè)單位并基于飛槳創(chuàng)建了80萬個模型。
只有身臨其中,才能對百度的AI能力擁有更直觀的感受以及客觀的評價。
AI平面設(shè)計及創(chuàng)意生成平臺Nolibox的CEO 徐作彪分享道:“文心大模型在語料庫、細(xì)分場景的定制化,以及合規(guī)等方面都是挺好的。而且對于我們而言,百度除了大模型也可以提供更底層的服務(wù),比如說百度智能云的算力、飛槳的框架,我們會用場景自研大模型、再加上百度文心大模型做一個整合幫助打造更好的產(chǎn)品去服務(wù)細(xì)分場景和客戶。”
“其實百度在過去十幾年中持續(xù)在AI研發(fā)上堅持投入,文心大模型第一個版本2019年就發(fā)布了,此后的每一年都發(fā)布一個新版本,從這個意義上說,文心一言的發(fā)布只是我們過去多年努力的一個自然延續(xù)。”在上半年的文心一言發(fā)布會上,李彥宏說道。低調(diào)平和的話語背后,是多年沉淀的技術(shù)底蘊。
02 數(shù)據(jù)、用戶、場景,大模型落地三件套
實踐是淘汰裸泳者的唯一標(biāo)準(zhǔn),酷炫的大模型只有真正滲透到商業(yè)應(yīng)用中才能去除泡沫。順利過渡到商業(yè)化階段,數(shù)據(jù)、用戶、場景是大模型落地必不可少的三件套。近期,百度率先面向全社會開放服務(wù),這一舉動正是頗有說服力的論證:公眾社會可以提供真實用戶,海量數(shù)據(jù)以及豐富的應(yīng)用場景,這些元素均是當(dāng)前大模型可持續(xù)發(fā)展的必要條件。
正如中國國家創(chuàng)新與發(fā)展戰(zhàn)略研究會副會長呂本富所言:“自帶場景、數(shù)據(jù)和用戶的平臺企業(yè)可以有效填補基礎(chǔ)模型和場景之間的認(rèn)知鴻溝,因此成為從平臺經(jīng)濟過渡到智能經(jīng)濟的中樞。”
數(shù)據(jù)層面,量和質(zhì)都是關(guān)鍵。
數(shù)據(jù)的量對于百度而言并非難事。此前朱嘯虎曾稱:在大模型行業(yè),模型、算力和數(shù)據(jù),三大支柱都向大廠集中�;趶V泛的數(shù)據(jù)量,在數(shù)據(jù)的利用率上,作為搜索引擎,百度平臺本身就有數(shù)據(jù)標(biāo)注以及邏輯關(guān)系建立的天然優(yōu)勢,可以大幅度提升數(shù)據(jù)的利用率。
ChatDOC,一家基于文檔智能的專業(yè)知識問答助手及閱讀平臺企業(yè)。該公司CEO林得苗用一個實際的場景案例分享了百度大模型在數(shù)據(jù)利用率方面的優(yōu)勢,“以前我們在一段內(nèi)容里找出結(jié)構(gòu)化數(shù)據(jù),通常只能找出那些訓(xùn)練過的內(nèi)容,比如說訓(xùn)練過財務(wù)的數(shù)據(jù),但如果涉及到一些業(yè)務(wù)知識、產(chǎn)品信息,沒有訓(xùn)練過的數(shù)據(jù)搜索效果就一般。但大模型有這個能力,因為他可以包括了更豐富的行業(yè)數(shù)據(jù)訓(xùn)練。”
真實的用戶反饋也是大模型實際落地的重要環(huán)節(jié),百度的搜索引擎是天然的交互型生成式AI應(yīng)用。李彥宏曾表示,當(dāng)文心一言向數(shù)以億計互聯(lián)網(wǎng)用戶大規(guī)模開放服務(wù)后,能夠獲得大量真實世界中的人工反饋,這將進一步改進基礎(chǔ)模型,并以更快速度迭代文心一言,創(chuàng)造更好的用戶體驗。
大模型的生存最終還是回到解決什么問題上,即找到合適的應(yīng)用場景。如前文所述,百度AI技術(shù)棧本身就建立了豐富的應(yīng)用層,且在近年的新基建中百度已經(jīng)有豐富的場景服務(wù)能力,無論是to B還是to C,其均有大量經(jīng)驗。
“每一個產(chǎn)品都值得重做一遍。但誰真正重新做了一遍呢?百度要做第一個把全部產(chǎn)品重做一遍的公司,不是整合,不是接入,是重做,重構(gòu)!”李彥宏的一句話中透露了百度公司內(nèi)自上而下的新技術(shù)重構(gòu)策略,這給大模型應(yīng)用前景提供了足夠的發(fā)展空間,技術(shù)與業(yè)務(wù)互相反饋。
如今,新技術(shù)重構(gòu)業(yè)務(wù)策略的正確性與前瞻性已經(jīng)被逐漸驗證。
分析機構(gòu)麥格理表示,今年百度在大模型領(lǐng)域的新探索或?qū)⑼苿庸緦崿F(xiàn)發(fā)展新高度。據(jù)百度官方數(shù)據(jù)顯示,文心一言開放首日戰(zhàn)報:共回復(fù)網(wǎng)友超過 3342 萬個問題,開放下載 19 小時之內(nèi)日活躍用戶突破 100 萬。隨著文心一言的開放,百度搜索業(yè)務(wù)將有望進一步增長,取得用戶留存率增長,也或?qū)⑼苿訌V告業(yè)務(wù)增長。
基于AI技術(shù)能力沉淀,以及大企業(yè)的龐大商業(yè)版圖優(yōu)勢,百度新技術(shù)可以先在集團內(nèi)部實現(xiàn)快速驗證。而綜合實力加持下的百度大模型落地能力表現(xiàn)幾何?其業(yè)務(wù)增長數(shù)據(jù)就是答案。
03 做中國大模型的挖井人
有數(shù)據(jù)顯示,目前,國內(nèi)已推出超100款大模型產(chǎn)品,且同質(zhì)化嚴(yán)重。熱潮過后,商業(yè)價值大考令許多大模型創(chuàng)業(yè)者絞盡腦汁。
據(jù)IDC《AI大模型技術(shù)能力評估報告,2023》顯示:百度獲算法模型、行業(yè)覆蓋唯一滿分,報告指出,百度AI大模型整體競爭力位于領(lǐng)先水平,在模型能力、工具平臺、生態(tài)布局以及行業(yè)覆蓋上優(yōu)勢明顯,并已提前進入商業(yè)化落地探索階段。
基于李彥宏提出的“重構(gòu)”戰(zhàn)略,百度大模型已經(jīng)悄然進入到具體的應(yīng)用解決方案。在9月5日,百度智能云千帆大模型平臺首次公布月活企業(yè)數(shù)已近萬家,覆蓋金融、制造、能源、政務(wù)、交通等行業(yè)的400多個業(yè)務(wù)場景。推出了四個升級版的行業(yè)解決方案:數(shù)字政府解決方案九州、金融解決方案開元、工業(yè)解決方案開物、智能交通解決方案ACE3.0。
據(jù)顯示,文心大模型包含數(shù) 30 多個大模型,涵蓋基礎(chǔ)大模型、任務(wù)大模型、行業(yè)大模型的三級體系,可以全面滿足產(chǎn)業(yè)應(yīng)用需求,應(yīng)用延展性較強,商業(yè)價值空間大。
大模型產(chǎn)業(yè)能否常青,生態(tài)發(fā)展很重要。從更龐大的價值潛力來看,就像安卓系統(tǒng)于移動端應(yīng)用的關(guān)系,做裁判優(yōu)過做選手。而百度做大模型的挖井人,再適合不過。
“我們希望創(chuàng)業(yè)者在文心大模型之上,可以做出AI時代的爆款應(yīng)用。”李彥宏稱。為此,百度在發(fā)布文心一言后不久,便啟動了百度“文心杯”創(chuàng)業(yè)大賽,召集全球最優(yōu)秀的AI創(chuàng)業(yè)者。
如同李彥宏所言,模型本身是不直接產(chǎn)生價值的,基于基礎(chǔ)大模型開發(fā)出來的應(yīng)用才是模型存在的意義,對于創(chuàng)業(yè)者來說,“卷大模型沒有意義,卷應(yīng)用機會更大”。
“大語言模型本身就是一個工具。我們核心其實不在于大語言模型本身,而是如何讓AI能夠勝任人類導(dǎo)購的一個角色。”Buysmart.AI是一個基于大模型的智能電商購物助手,類似AI買手,主要面向海外,該公司創(chuàng)始人陳歷飛在賽后采訪時分享道。
對于創(chuàng)業(yè)企業(yè)而言,如何借力大企業(yè)的底層技術(shù)能力,搭建自身的核心護城河才是競爭關(guān)鍵,這即是“卷應(yīng)用”。
在歷史的公開演講中,李彥宏在解釋百度做大模型生態(tài)的用意時,更多是站在宏觀的視角,比如產(chǎn)業(yè)持續(xù)發(fā)展和生產(chǎn)效率變革:
一方面,從行業(yè)發(fā)展來看,有在大模型基礎(chǔ)上產(chǎn)生足夠多的AI原生應(yīng)用,才是一個健康的生態(tài)環(huán)境;
另一方面,從產(chǎn)生的生產(chǎn)力價值上,他認(rèn)為新的國際競爭戰(zhàn)略關(guān)鍵點不是一個國家有多少個大模型,而是大模型上有多少原生的AI應(yīng)用,這些應(yīng)用又在多大程度上提升了生產(chǎn)效率。
據(jù)介紹,自5月31日“文心杯”啟動以來,大賽吸引了近 1000 個項目報名,帶來生產(chǎn)力工具、營銷、文娛、社交、電商等領(lǐng)域的大量AI原生應(yīng)用;其中30多個具有創(chuàng)新性的潛力項目入圍Demo開發(fā)環(huán)節(jié),接入百度智能云千帆大模型平臺、進行基于文心大模型的Demo開發(fā)。
在模型落地過渡時,百度此次“文心杯”的舉辦對于行業(yè)發(fā)展有推動意義:一方面提高產(chǎn)業(yè)整體對大模型的認(rèn)知度;另一方面,積極的參賽團隊也能夠獲得的大量珍貴且具有實際意義價值的反饋,促進文心一言迭代,創(chuàng)造更好的用戶體驗。
榜單收錄、高管收錄、融資收錄、活動收錄可發(fā)送郵件至news#citmt.cn(把#換成@)。
海報生成中...