AI視頻“入駐”手機，多模態(tài)成智能終端的新戰(zhàn)場

2025/06/03 14:56 光錐智能

　　文|樂樂

　　今天，無線藍牙耳機(TWS)已經(jīng)成為人人都用得起的產(chǎn)品。

　　但退回到9年前，蘋果AirPods是全球第一款真正意義上的無線藍牙耳機�？恐匝胁⑸暾垖＠腟noop監(jiān)聽技術(shù)，蘋果解決了藍牙耳機左右延時和能耗不一的問題。由此，AirPods吃下了2016-2018年的大部分市場，直到兩年后其它廠商才學(xué)會類似技術(shù)。

　　靠技術(shù)紅利獲勝，是蘋果的經(jīng)典操作，也是今天的手機廠商們在蘋果身上學(xué)到的重要一課。

　　對于近兩年的手機市場來說，AI無疑就是攪動手機市場的關(guān)鍵技術(shù)變量。

　　為了找到AI技術(shù)落地的殺手級功能，從Agent、AI修圖到AI問答，智能終端在做的事情就是在AI生態(tài)上盡可能做各種各樣的加法。

　　在高度同質(zhì)化的AI手機賽道，手機廠商們亟需找到創(chuàng)新的AI技術(shù)落地功能。而榮耀，正在悄悄拿下多個首發(fā)優(yōu)勢。

　　在近期榮耀400的發(fā)布會現(xiàn)場，圖生視頻成了榮耀“吃螃蟹”的又一首發(fā)功能，這背后是合作方生數(shù)科技旗下的AI視頻大模型在移動端的首次規(guī)�；涞�。

　　聯(lián)手生數(shù)科技Vidu，榮耀突破了三大難關(guān)——保持風(fēng)格一致性、對物理世界的理解、端側(cè)成本壓縮，讓用戶免費體驗“老照片復(fù)活術(shù)”。

　　而就在兩個月前，生數(shù)科技 Vidu Q1模型剛以VBench雙榜第一的成績碾壓Sora與Runway，如今就悄然鉆進千萬用戶的口袋。

　　這場合作背后，一場更深層的變革正在發(fā)酵。

　　當前，多模態(tài)正在重構(gòu)智能終端的交互體驗，手機正成為圖生視頻技術(shù)普惠的戰(zhàn)場之一。當大模型的技術(shù)競賽從語言模型延伸到多模態(tài)，“讓記憶重獲生命”的圖生視頻，或許正是打開大眾市場的第一把鑰匙。

　　當圖生視頻在手機上跑起來

　　一張由AI制作的“Live Photo”，成為了榮耀發(fā)布會現(xiàn)場眾人討論的焦點。

　　照片中，一個小孩抱著窗簾看向鏡頭微笑。經(jīng)由圖生視頻功能加工后，小孩抓著窗簾向一邊搖晃，頭部也隨著晃動方向微微傾斜，臉上掛著的笑容變成了動態(tài)，能看到嘴角咧起的弧度和鼓起的臉頰。

　　在榮耀產(chǎn)品線總裁方飛的演示中，只需要點擊“AI生圖”功能，選定相應(yīng)照片和生成的視頻時長(3秒/5秒)，AI就能根據(jù)圖片場景生成一段流暢的視頻。上述案例就是由該功能生成。

　　早在3月宣布向AI終端生態(tài)公司轉(zhuǎn)型的榮耀，在數(shù)字系列榮耀400上落地了一系列AI能力。光是照片一項，榮耀就上線了AI圖生視頻、AI去褶皺、AI去眼鏡反光、AI去玻璃反光、圖生視頻等優(yōu)化功能。

　　看起來簡單的視頻演示，背后是圖生視頻技術(shù)落地智能終端的一大步：攻克了技術(shù)難點，才能讓AI視頻看起來無限趨近于真實。

　　首先，要想讓視頻動起來的效果符合真實世界的運行規(guī)律，就是視頻生成模型們早期的通病。比如提示詞設(shè)定成兩個人打羽毛球，交給AI來做，球可能會出現(xiàn)憑空飛起或者不按照球拍擊打軌跡飛行等問題，導(dǎo)致生成出來的作品無法使用。

　　當下，如何更好地模擬物理世界規(guī)律，也成了大模型們面前的難關(guān)。就在3月份，生數(shù)科技發(fā)布的模型Vidu Q1，在VBench-1.0的視頻質(zhì)量、視頻語義一致性和 VBench-2.0的常識推理、物理理解等綜合維度上達到SOTA水平�？恐鴮μ崾驹~的理解力增強，Vidu能自動識別人物動作、光影、位置關(guān)系等內(nèi)容，讓生成的視頻在動態(tài)上符合物理世界規(guī)律。

　　此外，在風(fēng)格一致性上，擅長動漫、水墨等多種畫風(fēng)理解的Vidu，在保持原圖風(fēng)格一致上的表現(xiàn)相對穩(wěn)定。相比于會把真實圖片上傳后隨機轉(zhuǎn)換成油畫、動漫等風(fēng)格的視頻生成模型，Vidu顯然在場景理解上的表現(xiàn)更勝一籌。

　　不過，要想讓AI視頻真正普及，還需要考慮的就是生成速度和成本問題。等待時間超過幾分鐘，用戶體驗感會直線下滑，成本太高也會拖垮手機廠商的錢包。

　　而榮耀和生數(shù)科技一起克服了這幾個問題，把圖生視頻玩法搬上了手機。相對于各大視頻應(yīng)用靠會員制收費，榮耀的圖生視頻功能完全免費，讓用戶不花錢也能體驗。

　　雖然這次并未公布具體的生成時長和成本，但根據(jù)此前Vidu 1.5版本做到幾秒生成、Vidu 2.0單秒成本最低不到3毛錢的價格來看，AI視頻已經(jīng)具備了落地端側(cè)的條件。

　　除此之外，AI視頻大模型的技術(shù)一直在進步，未來或?qū)⒃谑謾C等智能終端中實現(xiàn)更多的功能。

　　比如，AI視頻一直存在一個技術(shù)難點——主體一致性。主體一致性，是指保持人物、物體、環(huán)境等主體一致，不會面部五官亂飛，環(huán)境前后連貫

　　2024年，生數(shù)科技在新模型Vidu 1.5中實現(xiàn)多主體一致性，使用者可以上傳背景和多個主體人物的照片，AI就能將這些自定義元素組合在一起，根據(jù)提示詞生成視頻。

　　以多主體一致性來說，海螺AI的“主體參考”功能和可靈的“多圖參考”均在今年1月上線，比Vidu慢了2個月。

　　多模態(tài)，智能終端的新戰(zhàn)場

　　多模態(tài)大模型，最近半年內(nèi)正在肉眼可見的批量落地。

　　在App端，字節(jié)在5月23日給自家AI助手應(yīng)用豆包裝上了視頻通話功能。背靠自研的視頻推理模型，豆包不僅能“睜眼看世界”，還能根據(jù)看到的畫面推測接下來的動作，比如炒菜的時候，豆包能夠根據(jù)原料猜出對應(yīng)的菜，并且給出炒菜的具體步驟。

　　騰訊則在5月份發(fā)布了語音模型Human-Voice，并預(yù)告騰訊元寶將會在6月上線語音通話功能。同時，騰訊還會上線全球首個全模態(tài)模型“混元-O”。

　　在智能終端上，本身通過GUI(圖形用戶界面)實現(xiàn)交互的手機廠商們，就是多模態(tài)大模型的重要載體。

　　可以說，從這一輪生成式AI開始時，多模態(tài)AI就被廠商納入了考慮范圍。只是一開始在技術(shù)能力受限的情況下，大語言模型成為了端側(cè)大模型落地最早的一種。

　　多模態(tài)模型在端測的應(yīng)用更廣，場景更多，不僅可以為以往場景賦能，還能有新的互動體驗場景，受眾范圍也會更廣，因為視頻圖像的受眾總是大于文字的。

　　隨著多模態(tài)能力的技術(shù)進步，端側(cè)語音和視頻交互的比重正在上升。

　　比如，一些在端側(cè)運行的大語言模型逐漸被多模態(tài)大模型代替，相應(yīng)應(yīng)用的底座也升級為多模態(tài)：

　　2024年1月，榮耀發(fā)布自研端側(cè)70億參數(shù)平臺級AI大模型“魔法大模型”家族，包括語言大模型和圖像、語音多模態(tài)大模型，支持智慧成片、圖庫語義搜索等功能，讓AI能夠“理解”圖片;在購物、娛樂、辦公等場景，開啟跨時代交互體驗。2024年5月，vivo發(fā)布多模態(tài)大模型技術(shù)應(yīng)用“vivo看見-藍心升級版”，用于幫助視障用戶理解世界。

　　伴隨行業(yè)多模態(tài)能力的突破，以往受限于能力不足的AI應(yīng)用，也迎來了能力突破。

　　其中，最突出的應(yīng)用領(lǐng)域就是Agent(智能體)。通過調(diào)用手機屏幕截圖，再將圖片提供給多模態(tài)大模型的方式，AI開始能夠真正“理解”屏幕信息，并根據(jù)用戶指令工作。這就有了去年以榮耀為首等一系列手機廠商開卷智能體的動作，從榮耀的YoYo智能體到vivo藍心智能體再到OPPO的“AI問屏”，都是基于多模態(tài)能力實現(xiàn)的自主智能體產(chǎn)品。

　　基于多模態(tài)能力的AI修圖系列功能，也是應(yīng)用更加廣泛的方向。早在2010年，手機廠商就開始探索基于圖像理解的AI攝影算法，通過對圖片的理解，用算法還原圖片生成的細節(jié)。

　　而在生成式AI能力進化的當下，基于多模態(tài)大模型的一系列圖片優(yōu)化功能也是廠商重點宣傳的方向。從各大手機廠商必備的一鍵修圖、圖片識別等功能，都是基于人們?nèi)粘Ｉ钪械男枨蟪霭l(fā)。

　　這一次，榮耀也在發(fā)布會上帶來了AI修圖帶來的更多可能性。比如用AI實現(xiàn)“一鍵摳圖”，讓沒有PS功底的用戶也能輕松從圖片中摳出人像，自由移動編輯;再比如“AI消除眼鏡反光”的功能，通過AI消除掉拍照時眼鏡折射的色彩。

　　在智能終端需求和多模態(tài)能力普及的當下，二者一拍即合。

　　AI功能那么多，能用起來的有幾個?

　　從大模型火熱以來，手機廠商對AI的熱情無比高漲，開發(fā)的功能也是多如牛毛。

　　從對話式聊天助手、AI筆記、AI修圖到AI智能體，不上十幾個原生的AI應(yīng)用，那都沒法叫AI手機。

　　不過，用戶真正能日常使用起來的高頻應(yīng)用，并不多。很多AI功能，要么是獨立APP上有更好的替代品，要么就是功能雞肋用不起來。

　　另一方面，不少AI應(yīng)用目前的使用門檻還比較高，一個是對用戶的硬件環(huán)境有要求，需要PC端至少4090的顯卡才能跑起來;另一個是對用戶的技能有一定要求，下載、簡單部署、甚至海外賬號的設(shè)置都能攔截掉一大批人。

　　以上面提到的圖生視頻來說，雖然可靈、海螺的產(chǎn)品比較成熟，有了很高的可用性，但用戶也僅僅局限于相對專業(yè)的用戶范圍內(nèi)，比如設(shè)計師、動畫制作師、新媒體從業(yè)者等，普通用戶想自己用起來還非常難。

　　但榮耀和生數(shù)科技Vidu共同在端側(cè)新推出的圖生視頻功能，無論是用來將過往的老照片變成視頻，還是靠圖生視頻抓住鮮活的時刻，就又給用戶記錄生活，創(chuàng)作靈感增添了許多可能。

　　而一張照片的視頻生成，只是一個開始。

　　智能終端與AI公司聯(lián)手后，參考生視頻、文生視頻等AI視頻的更多玩法，都有望進一步遷移到智能終端中。

　　當然，這將進一步考驗雙方端側(cè)AI、云端協(xié)同的技術(shù)能力，成本降低的能力。但真正能讓用戶用起來，才能真正增強產(chǎn)品的競爭力，在手機競爭的紅海中逆勢上升。

　　2024年，手機市場變化已經(jīng)證明了AI對于手機銷量的促進作用。在全球手機銷量連續(xù)下滑兩年后，于AI概念真正落地手機的2024年，全球已經(jīng)連續(xù)4個季度實現(xiàn)了同比增長。市場調(diào)研機構(gòu)Canalys提供數(shù)據(jù)顯示，2024年全球手機銷量達到12.2億，同比增長7%。

　　比起在技術(shù)層的炫技，今年，AI在端側(cè)的落地將給人帶來更多驚喜。

　　榜單收錄、高管收錄、融資收錄、活動收錄可發(fā)送郵件至news#citmt.cn（把#換成@）。

海報生成中...

分享到微博分享到微信一鍵復(fù)制

標題鏈接已成功復(fù)制

免费观看已满十八岁电视剧国语_人妻色综合网站_欧美大尺寸suv视频_成人免费高清在线观看_久久久成人毛片无码_老头解开奶罩吸奶头高潮视频_sm调教室论坛入口_欧美夫妻交换久久丫1000_一级黄色大片在线免费观看了

AI視頻“入駐”手機，多模態(tài)成智能終端的新戰(zhàn)場

最新新聞

熱門新聞

新動態(tài)

關(guān)注度

最話題

免费观看已满十八岁电视剧国语_人妻 色综合网站_欧美大尺寸suv视频_成人免费高清在线观看_久久久成人毛片无码_老头解开奶罩吸奶头高潮视频_sm调教室论坛入口_欧美夫妻交换久久丫1000_一级黄色大片在线免费观看了

AI視頻“入駐”手機，多模態(tài)成智能終端的新戰(zhàn)場

相關(guān)閱讀

最新新聞

熱門新聞

新動態(tài)

關(guān)注度

最話題

免费观看已满十八岁电视剧国语_人妻色综合网站_欧美大尺寸suv视频_成人免费高清在线观看_久久久成人毛片无码_老头解开奶罩吸奶头高潮视频_sm调教室论坛入口_欧美夫妻交换久久丫1000_一级黄色大片在线免费观看了