首頁 > 資訊 > 評論

Sora三巨頭首次解密幕后信息

2024/03/25 14:00 微信公眾號：量子位明敏克雷西

　　“Sora最快今年內(nèi)開放公測。”

　　在一場訪談中，OpenAI CTO Mira Murati親自透露了這一消息。

　　短短10分鐘里，Sora技術(shù)細節(jié)、進展、規(guī)劃等當(dāng)下最熱議的問題，都有了更進一步解答：

　　生成20秒的720P視頻只需幾分鐘

　　計算資源遠超ChatGPT和DALL·E

　　目前正在進行正在進行紅隊測試

　　未來版本有望支持視頻聲效

　　而且還向外界傳遞了一層重要信息：

　　OpenAI在考慮發(fā)布這項技術(shù)時，抱有非常謹慎的態(tài)度。

　　“我們希望電影界人士和世界各地的創(chuàng)作者都能參與進來，與我們共同探索如何進一步推動這些行業(yè)發(fā)展。”

　　加上前幾天，Sora的三名研發(fā)主管——Tim Brooks、William Peebles和Aditya Ramesh，也參與了一場16分鐘的播客訪談。

　　綜合兩場對話，關(guān)于Sora背后的秘密，也有了更多蛛絲馬跡可以探尋。

　　1、Sora背后還有多少秘密？

　　關(guān)于Sora，人們最關(guān)心也最期待的，可能就是什么時候才能上手體驗了。

　　對此，Mira表示Sora正在進行紅隊測試，以確保工具的安全性，并且不會產(chǎn)生偏見或其他有害問題。

　　對于具體的時間，Mira也立下了flag——今年年內(nèi)讓Sora與廣大用戶正式見面。

　　此外，兩場對話中談到的其他話題，可以分為技術(shù)細節(jié)、項目規(guī)劃和未來展望三個部分。

　　揭開更多技術(shù)細節(jié)

　　技術(shù)方面，三人團隊表示，Sora更像是介于Dall·E這類擴散模型和GPT之間。

　　訓(xùn)練方式類似于Dall·E，但架構(gòu)上更像GPT系列。

　　訓(xùn)練數(shù)據(jù)是不方便說滴(doge)，大致就是公開數(shù)據(jù)和OpenAI已獲授權(quán)的數(shù)據(jù)。

　　不過他們專門cue了一個點：通常圖像、視頻模型都是在一個固定尺寸上進行訓(xùn)練，而Sora使用了不同時長、比例和清晰度的視頻。

　　具體方法之前的技術(shù)報告已經(jīng)有了說明，就是用“Patches”來統(tǒng)一不同的視覺數(shù)據(jù)表現(xiàn)形式。

　　然后可以根據(jù)輸入視頻的大小，訓(xùn)練模型認識不同數(shù)量的小塊。通過這種方式，模型能夠更加靈活學(xué)習(xí)各種數(shù)據(jù)，同時也能生成不同分辨率和尺寸的內(nèi)容。

　　性能方面，Mira和三人組的說法則略有不同：

　　三人組透露，有一次給Sora布置好任務(wù)后，出去買了杯咖啡，結(jié)果回來之后視頻還沒做好。

　　而Mira這邊的回答則是，Sora生成720P分辨率、長達20秒的視頻內(nèi)容，只需要幾分鐘就能完成。

　　當(dāng)然，具體消耗的時間，還要取決于任務(wù)復(fù)雜程度等多種因素，不能簡單一概而論。

　　不過Mira這邊表示，在正式發(fā)布之前將繼續(xù)努力優(yōu)化算法，以降低所需的算力。

　　這些問題還需解決

　　而針對Sora存在的不足，他們的回答也很坦誠，表示其還存在無法*處理手部的生成，渲染復(fù)雜的物理過程也存在一定難度等一系列問題。

　　除了這些bug型的缺陷之外，Sora不能給視頻添加聲音也算一個美中不足之處，對此三人組給出了這樣的回應(yīng)：

　　很難確定什么時候能有這樣的功能，但這并非一個技術(shù)問題，而是目前有優(yōu)先級更高的問題需要解決。目前，Sora還是更關(guān)注視頻本身的生成，研究重點是提高視頻的畫質(zhì)和幀率。所以，能夠加入聲音當(dāng)然是更好的，但現(xiàn)在的當(dāng)務(wù)之急，還是要把視頻能力先搞上來。

　　而Mira對此的回答則更像是給人們吃了一顆定心丸——未來版本有望支持視頻聲效，增強用戶體驗。

　　而除了這些產(chǎn)品本身的問題之外，為Sora生成的視頻加入溯源信息，以防出現(xiàn)造假，也是OpenAI當(dāng)下的一項重要任務(wù)。

　　同時，負責(zé)人和Mira都表示，團隊始終在收集來自各界的用戶反饋，三人組還舉例說有用戶希望能加入提示詞以外，更精細、直接的控制方式，團隊將此作為了重點考慮的一個方向。

　　Sora，未來可期

　　最后，針對Sora的未來，負責(zé)人給出了很高的預(yù)期，并表示其將不僅僅在視頻創(chuàng)作方面發(fā)揮作用。

　　我們的世界充滿了視覺信息，其中有很多無法僅通過文本來傳達。所以，雖然像GPT這樣的語言模型已經(jīng)對世界有了深刻的理解，但如果它們無法像人類一樣“看”到視覺的世界，對世界的認識就會有所缺失。

　　因此，負責(zé)人對Sora及未來可能在其基礎(chǔ)上開發(fā)的其他AI模型充滿了期待——通過學(xué)習(xí)視覺信息的方式理解這個世界，在未來能夠更好地幫助人類。

　　對此有網(wǎng)友表示，這的確是個好消息，Sora的意義不僅在于其本身，而且還會對其他AI產(chǎn)生影響。

　　另一邊，已經(jīng)有人在期待Runway等前任*對此的反應(yīng)了。

　　不過，雖然團隊自己說Sora在未來能夠理解人類世界，但它到底能不能真的算世界模型，還存在不小的爭議。2、Sora是世界模型嗎？

　　針對這個問題，正反雙方各執(zhí)一詞，支持者的主要理由，是認為從Sora生成的視頻中能看出其對物理世界的理解。

　　而反方則不認同Sora是世界模型，代表人物是圖靈獎得主、Meta首席AI科學(xué)家LeCun。

　　近期，LeCun點贊了一篇澳大利亞學(xué)者的萬字長文，文章的核心觀點就是認為Sora不是世界模型。

　　其中最核心的原因，是Sora并沒有物理引擎來運行前向時間模擬，而且訓(xùn)練過程是端到端完成的，數(shù)據(jù)中并沒有物理規(guī)律信息。

　　即便是拋開訓(xùn)練和生成過程，單從表現(xiàn)上看，Sora的輸出也出現(xiàn)了違反重力、碰撞動力學(xué)等物理規(guī)律的情況。

　　所以，作者認為，將Sora稱為世界模型是缺少充分依據(jù)的。

　　而人們比較關(guān)心的另一個問題，是Sora的訓(xùn)練過程，是否使用了虛幻引擎(Unreal Engine)5。

　　不過作者也沒有給出確切結(jié)論，只表示這只是猜測，目前并沒有確切的證據(jù)表明Sora確實使用了UE5進行訓(xùn)練。

　　而要想進一步揭開這些問題，或許要OpenAI再次自己出來公布，或者直接開源了。3、One More Thing

　　雖然兩場訪談的確透露出了不少干貨，但針對人們同樣廣為關(guān)心的訓(xùn)練數(shù)據(jù)來源問題，無論是三人團隊還是Mira，說法都十分模糊——

　　Sora的訓(xùn)練過程中使用的是公開可用和已獲得授權(quán)的數(shù)據(jù)源。

　　但對于YouTube、Instagram和Facebook上的視頻是否被用作訓(xùn)練數(shù)據(jù)，Mira則是顧左右而言他：

　　我不知道，但如果這些數(shù)據(jù)是公開可用的，他們也許是(訓(xùn)練)數(shù)據(jù)(的一部分)……我不確定

　　不過，這個說法的可信度先放下不談，即便真的如Mira所說，也有網(wǎng)友并不認賬：

　　OpenAI好像覺得，只要是公開的數(shù)據(jù)就可以隨便用，呵呵

　　榜單收錄、高管收錄、融資收錄、活動收錄可發(fā)送郵件至news#citmt.cn（把#換成@）。

海報生成中...

分享到微博分享到微信一鍵復(fù)制

標(biāo)題鏈接已成功復(fù)制

免费观看已满十八岁电视剧国语_人妻色综合网站_欧美大尺寸suv视频_成人免费高清在线观看_久久久成人毛片无码_老头解开奶罩吸奶头高潮视频_sm调教室论坛入口_欧美夫妻交换久久丫1000_一级黄色大片在线免费观看了

Sora三巨頭首次解密幕后信息

最新新聞

熱門新聞

新動態(tài)

關(guān)注度

最話題

免费观看已满十八岁电视剧国语_人妻 色综合网站_欧美大尺寸suv视频_成人免费高清在线观看_久久久成人毛片无码_老头解开奶罩吸奶头高潮视频_sm调教室论坛入口_欧美夫妻交换久久丫1000_一级黄色大片在线免费观看了

Sora三巨頭首次解密幕后信息

相關(guān)閱讀

最新新聞

熱門新聞

新動態(tài)

關(guān)注度

最話題

免费观看已满十八岁电视剧国语_人妻色综合网站_欧美大尺寸suv视频_成人免费高清在线观看_久久久成人毛片无码_老头解开奶罩吸奶头高潮视频_sm调教室论坛入口_欧美夫妻交换久久丫1000_一级黄色大片在线免费观看了