文|樂樂
今天,無線藍牙耳機(TWS)已經(jīng)成為人人都用得起的產(chǎn)品。
但退回到9年前,蘋果AirPods是全球第一款真正意義上的無線藍牙耳機�?恐匝胁⑸暾垖@腟noop監(jiān)聽技術(shù),蘋果解決了藍牙耳機左右延時和能耗不一的問題。由此,AirPods吃下了2016-2018年的大部分市場,直到兩年后其它廠商才學(xué)會類似技術(shù)。
靠技術(shù)紅利獲勝,是蘋果的經(jīng)典操作,也是今天的手機廠商們在蘋果身上學(xué)到的重要一課。
對于近兩年的手機市場來說,AI無疑就是攪動手機市場的關(guān)鍵技術(shù)變量。
為了找到AI技術(shù)落地的殺手級功能,從Agent、AI修圖到AI問答,智能終端在做的事情就是在AI生態(tài)上盡可能做各種各樣的加法。
在高度同質(zhì)化的AI手機賽道,手機廠商們亟需找到創(chuàng)新的AI技術(shù)落地功能。而榮耀,正在悄悄拿下多個首發(fā)優(yōu)勢。
在近期榮耀400的發(fā)布會現(xiàn)場,圖生視頻成了榮耀“吃螃蟹”的又一首發(fā)功能,這背后是合作方生數(shù)科技旗下的AI視頻大模型在移動端的首次規(guī)�;涞�。
聯(lián)手生數(shù)科技Vidu,榮耀突破了三大難關(guān)——保持風(fēng)格一致性、對物理世界的理解、端側(cè)成本壓縮,讓用戶免費體驗“老照片復(fù)活術(shù)”。
而就在兩個月前,生數(shù)科技 Vidu Q1模型剛以VBench雙榜第一的成績碾壓Sora與Runway,如今就悄然鉆進千萬用戶的口袋。
這場合作背后,一場更深層的變革正在發(fā)酵。
當前,多模態(tài)正在重構(gòu)智能終端的交互體驗,手機正成為圖生視頻技術(shù)普惠的戰(zhàn)場之一。當大模型的技術(shù)競賽從語言模型延伸到多模態(tài),“讓記憶重獲生命”的圖生視頻,或許正是打開大眾市場的第一把鑰匙。
當圖生視頻在手機上跑起來
一張由AI制作的“Live Photo”,成為了榮耀發(fā)布會現(xiàn)場眾人討論的焦點。
照片中,一個小孩抱著窗簾看向鏡頭微笑。經(jīng)由圖生視頻功能加工后,小孩抓著窗簾向一邊搖晃,頭部也隨著晃動方向微微傾斜,臉上掛著的笑容變成了動態(tài),能看到嘴角咧起的弧度和鼓起的臉頰。
在榮耀產(chǎn)品線總裁方飛的演示中,只需要點擊“AI生圖”功能,選定相應(yīng)照片和生成的視頻時長(3秒/5秒),AI就能根據(jù)圖片場景生成一段流暢的視頻。上述案例就是由該功能生成。
早在3月宣布向AI終端生態(tài)公司轉(zhuǎn)型的榮耀,在數(shù)字系列榮耀400上落地了一系列AI能力。光是照片一項,榮耀就上線了AI圖生視頻、AI去褶皺、AI去眼鏡反光、AI去玻璃反光、圖生視頻等優(yōu)化功能。
看起來簡單的視頻演示,背后是圖生視頻技術(shù)落地智能終端的一大步:攻克了技術(shù)難點,才能讓AI視頻看起來無限趨近于真實。
首先,要想讓視頻動起來的效果符合真實世界的運行規(guī)律,就是視頻生成模型們早期的通病。比如提示詞設(shè)定成兩個人打羽毛球,交給AI來做,球可能會出現(xiàn)憑空飛起或者不按照球拍擊打軌跡飛行等問題,導(dǎo)致生成出來的作品無法使用。
當下,如何更好地模擬物理世界規(guī)律,也成了大模型們面前的難關(guān)。就在3月份,生數(shù)科技發(fā)布的模型Vidu Q1,在VBench-1.0的視頻質(zhì)量、視頻語義一致性和 VBench-2.0的常識推理、物理理解等綜合維度上達到SOTA水平�?恐鴮μ崾驹~的理解力增強,Vidu能自動識別人物動作、光影、位置關(guān)系等內(nèi)容,讓生成的視頻在動態(tài)上符合物理世界規(guī)律。
此外,在風(fēng)格一致性上,擅長動漫、水墨等多種畫風(fēng)理解的Vidu,在保持原圖風(fēng)格一致上的表現(xiàn)相對穩(wěn)定。相比于會把真實圖片上傳后隨機轉(zhuǎn)換成油畫、動漫等風(fēng)格的視頻生成模型,Vidu顯然在場景理解上的表現(xiàn)更勝一籌。
不過,要想讓AI視頻真正普及,還需要考慮的就是生成速度和成本問題。等待時間超過幾分鐘,用戶體驗感會直線下滑,成本太高也會拖垮手機廠商的錢包。
而榮耀和生數(shù)科技一起克服了這幾個問題,把圖生視頻玩法搬上了手機。相對于各大視頻應(yīng)用靠會員制收費,榮耀的圖生視頻功能完全免費,讓用戶不花錢也能體驗。
雖然這次并未公布具體的生成時長和成本,但根據(jù)此前Vidu 1.5版本做到幾秒生成、Vidu 2.0單秒成本最低不到3毛錢的價格來看,AI視頻已經(jīng)具備了落地端側(cè)的條件。
除此之外,AI視頻大模型的技術(shù)一直在進步,未來或?qū)⒃谑謾C等智能終端中實現(xiàn)更多的功能。
比如,AI視頻一直存在一個技術(shù)難點——主體一致性。主體一致性,是指保持人物、物體、環(huán)境等主體一致,不會面部五官亂飛,環(huán)境前后連貫
2024年,生數(shù)科技在新模型Vidu 1.5中實現(xiàn)多主體一致性,使用者可以上傳背景和多個主體人物的照片,AI就能將這些自定義元素組合在一起,根據(jù)提示詞生成視頻。
以多主體一致性來說,海螺AI的“主體參考”功能和可靈的“多圖參考”均在今年1月上線,比Vidu慢了2個月。
多模態(tài),智能終端的新戰(zhàn)場
多模態(tài)大模型,最近半年內(nèi)正在肉眼可見的批量落地。
在App端,字節(jié)在5月23日給自家AI助手應(yīng)用豆包裝上了視頻通話功能。背靠自研的視頻推理模型,豆包不僅能“睜眼看世界”,還能根據(jù)看到的畫面推測接下來的動作,比如炒菜的時候,豆包能夠根據(jù)原料猜出對應(yīng)的菜,并且給出炒菜的具體步驟。
騰訊則在5月份發(fā)布了語音模型Human-Voice,并預(yù)告騰訊元寶將會在6月上線語音通話功能。同時,騰訊還會上線全球首個全模態(tài)模型“混元-O”。
在智能終端上,本身通過GUI(圖形用戶界面)實現(xiàn)交互的手機廠商們,就是多模態(tài)大模型的重要載體。
可以說,從這一輪生成式AI開始時,多模態(tài)AI就被廠商納入了考慮范圍。只是一開始在技術(shù)能力受限的情況下,大語言模型成為了端側(cè)大模型落地最早的一種。
多模態(tài)模型在端測的應(yīng)用更廣,場景更多,不僅可以為以往場景賦能,還能有新的互動體驗場景,受眾范圍也會更廣,因為視頻圖像的受眾總是大于文字的。
隨著多模態(tài)能力的技術(shù)進步,端側(cè)語音和視頻交互的比重正在上升。
比如,一些在端側(cè)運行的大語言模型逐漸被多模態(tài)大模型代替,相應(yīng)應(yīng)用的底座也升級為多模態(tài):
2024年1月,榮耀發(fā)布自研端側(cè)70億參數(shù)平臺級AI大模型“魔法大模型”家族,包括語言大模型和圖像、語音多模態(tài)大模型,支持智慧成片、圖庫語義搜索等功能,讓AI能夠“理解”圖片;在購物、娛樂、辦公等場景,開啟跨時代交互體驗。2024年5月,vivo發(fā)布多模態(tài)大模型技術(shù)應(yīng)用“vivo看見-藍心升級版”,用于幫助視障用戶理解世界。
伴隨行業(yè)多模態(tài)能力的突破,以往受限于能力不足的AI應(yīng)用,也迎來了能力突破。
其中,最突出的應(yīng)用領(lǐng)域就是Agent(智能體)。通過調(diào)用手機屏幕截圖,再將圖片提供給多模態(tài)大模型的方式,AI開始能夠真正“理解”屏幕信息,并根據(jù)用戶指令工作。這就有了去年以榮耀為首等一系列手機廠商開卷智能體的動作,從榮耀的YoYo智能體到vivo藍心智能體再到OPPO的“AI問屏”,都是基于多模態(tài)能力實現(xiàn)的自主智能體產(chǎn)品。
基于多模態(tài)能力的AI修圖系列功能,也是應(yīng)用更加廣泛的方向。早在2010年,手機廠商就開始探索基于圖像理解的AI攝影算法,通過對圖片的理解,用算法還原圖片生成的細節(jié)。
而在生成式AI能力進化的當下,基于多模態(tài)大模型的一系列圖片優(yōu)化功能也是廠商重點宣傳的方向。從各大手機廠商必備的一鍵修圖、圖片識別等功能,都是基于人們?nèi)粘I钪械男枨蟪霭l(fā)。
這一次,榮耀也在發(fā)布會上帶來了AI修圖帶來的更多可能性。比如用AI實現(xiàn)“一鍵摳圖”,讓沒有PS功底的用戶也能輕松從圖片中摳出人像,自由移動編輯;再比如“AI消除眼鏡反光”的功能,通過AI消除掉拍照時眼鏡折射的色彩。
在智能終端需求和多模態(tài)能力普及的當下,二者一拍即合。
AI功能那么多,能用起來的有幾個?
從大模型火熱以來,手機廠商對AI的熱情無比高漲,開發(fā)的功能也是多如牛毛。
從對話式聊天助手、AI筆記、AI修圖到AI智能體,不上十幾個原生的AI應(yīng)用,那都沒法叫AI手機。
不過,用戶真正能日常使用起來的高頻應(yīng)用,并不多。很多AI功能,要么是獨立APP上有更好的替代品,要么就是功能雞肋用不起來。
另一方面,不少AI應(yīng)用目前的使用門檻還比較高,一個是對用戶的硬件環(huán)境有要求,需要PC端至少4090的顯卡才能跑起來;另一個是對用戶的技能有一定要求,下載、簡單部署、甚至海外賬號的設(shè)置都能攔截掉一大批人。
以上面提到的圖生視頻來說,雖然可靈、海螺的產(chǎn)品比較成熟,有了很高的可用性,但用戶也僅僅局限于相對專業(yè)的用戶范圍內(nèi),比如設(shè)計師、動畫制作師、新媒體從業(yè)者等,普通用戶想自己用起來還非常難。
但榮耀和生數(shù)科技Vidu共同在端側(cè)新推出的圖生視頻功能,無論是用來將過往的老照片變成視頻,還是靠圖生視頻抓住鮮活的時刻,就又給用戶記錄生活,創(chuàng)作靈感增添了許多可能。
而一張照片的視頻生成,只是一個開始。
智能終端與AI公司聯(lián)手后,參考生視頻、文生視頻等AI視頻的更多玩法,都有望進一步遷移到智能終端中。
當然,這將進一步考驗雙方端側(cè)AI、云端協(xié)同的技術(shù)能力,成本降低的能力。但真正能讓用戶用起來,才能真正增強產(chǎn)品的競爭力,在手機競爭的紅海中逆勢上升。
2024年,手機市場變化已經(jīng)證明了AI對于手機銷量的促進作用。在全球手機銷量連續(xù)下滑兩年后,于AI概念真正落地手機的2024年,全球已經(jīng)連續(xù)4個季度實現(xiàn)了同比增長。市場調(diào)研機構(gòu)Canalys提供數(shù)據(jù)顯示,2024年全球手機銷量達到12.2億,同比增長7%。
比起在技術(shù)層的炫技,今年,AI在端側(cè)的落地將給人帶來更多驚喜。
榜單收錄、高管收錄、融資收錄、活動收錄可發(fā)送郵件至news#citmt.cn(把#換成@)。
海報生成中...