[No.X001-2]
7月26日,由中國人工智能學(xué)會(huì)主辦、新浪新聞聯(lián)合浙江大學(xué)承辦的2020全球人工智能技術(shù)大會(huì)(2020GAITC)“AI時(shí)代下的新媒體與社交娛樂”專題論壇拉開帷幕,新浪集團(tuán)首席信息官、新浪AI媒體研究院院長(zhǎng)王巍,浙江大學(xué)特聘教授,悉尼科技大學(xué)教授、百度研究院訪問教授楊易共同擔(dān)任論壇主席。
浙江大學(xué)特聘教授,悉尼科技大學(xué)教授、百度訪問教授楊易在本次專題論壇上,與來自業(yè)界、學(xué)術(shù)界的嘉賓們分享了《媒體的智能理解、分析與合成》。
楊易認(rèn)為,大規(guī)模網(wǎng)絡(luò)視頻智能分析面臨許多挑戰(zhàn),如視頻數(shù)據(jù)復(fù)雜度高,標(biāo)注數(shù)據(jù)量少且標(biāo)注過程緩慢等。如何利用無標(biāo)注的海量網(wǎng)絡(luò)視頻協(xié)助視頻特征學(xué)習(xí),并提升模型性能是視頻分析領(lǐng)域重要的研究問題。
他提到,以前訓(xùn)練一個(gè)模型做一件事,現(xiàn)在更多的是讓機(jī)器自主學(xué)習(xí),培養(yǎng)機(jī)器的自我學(xué)習(xí)能力。不僅讓機(jī)器學(xué)會(huì)做事,更要教會(huì)它怎么去學(xué)習(xí),這是元學(xué)習(xí)的基本想法。比如,讓機(jī)器學(xué)會(huì)怎么去做事,新的任務(wù)就很容易做自適應(yīng)。
圖注:浙江大學(xué)特聘教授、悉尼科技大學(xué)教授、百度研究院訪問教授楊易作主題演講
以下為楊易演講實(shí)錄,內(nèi)容經(jīng)編輯略有刪減:
尊敬的李院士,新浪的王總,以及在場(chǎng)的各位嘉賓和網(wǎng)上觀看今天會(huì)議的朋友們大家好!今天我的報(bào)告比較偏技術(shù)一點(diǎn),因?yàn)橐曨l在網(wǎng)絡(luò)媒體傳播里面是最重要的載體,而且今天李院士也講了,跨媒體是人和設(shè)備,計(jì)算機(jī)交互最重要的一個(gè)載體,我覺得視頻它有聲音,也有文字的信息,可能還有視覺的信息,所以可能是最接近跨媒體信息的媒體類型。
我今天給大家分享一下我們?cè)趺礃幽軌虮容^智能的去分析、理解和利用、推薦視頻的內(nèi)容。今天是娛樂論壇,其實(shí)在娛樂這個(gè)領(lǐng)域,我們用得場(chǎng)景視頻還是比較多的,比如說體育運(yùn)動(dòng)類的視頻,比如說社交媒體的視頻,電影和電視里的視頻。為什么我們要做視頻的分析和理解?接下來我將用幾個(gè)比較典型的應(yīng)用展開論述。
當(dāng)我們?cè)诎l(fā)布媒體內(nèi)容的時(shí)候,我們希望對(duì)它做比較好的管理和分類。我們希望媒體對(duì)這個(gè)內(nèi)容做推薦,我們也希望媒體對(duì)這個(gè)內(nèi)容做審查。不管是在國外還是國內(nèi)都有這種需求,在國外很多的時(shí)候有的人會(huì)通過媒體發(fā)一些極端主義的內(nèi)容,所以我們無論是推薦,還是審查,還是組織、檢索,都需要對(duì)視頻的內(nèi)容做比較智能的分析。
實(shí)際上為什么視頻分析是比較難的,因?yàn)橐曨l的規(guī)模是非常大的,它和圖像比起來,時(shí)間和空間的信息復(fù)雜度會(huì)很高,而且現(xiàn)在我們學(xué)術(shù)界用的數(shù)據(jù)相較于我們真實(shí)的網(wǎng)絡(luò)視頻和我們要處理的視頻還是有一些差距的。比如說這個(gè)是我們?cè)谟?xùn)練神經(jīng)網(wǎng)絡(luò)用得比較多的數(shù)據(jù),但是這些數(shù)據(jù)可能是運(yùn)動(dòng)數(shù)據(jù),可是我們真正遇到的數(shù)據(jù)是用戶拍攝的數(shù)據(jù),這些數(shù)據(jù)和我們學(xué)術(shù)界訓(xùn)練神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)有一定的鴻溝。另外,我們現(xiàn)在和圖像比起來,我們可以訓(xùn)練一個(gè)相對(duì)比較好的神經(jīng)網(wǎng)絡(luò)來做圖像的表達(dá)。但是視頻數(shù)據(jù)我們可以訪問到、標(biāo)注好的數(shù)據(jù)規(guī)模非常小,而且視頻數(shù)據(jù)又比圖像數(shù)據(jù)更復(fù)雜,所以一方面我們的訓(xùn)練數(shù)據(jù)少,另一方面我們數(shù)據(jù)的內(nèi)容又非常的復(fù)雜,所以在這種情況下,就使得訓(xùn)練一個(gè)很好的可用的神經(jīng)網(wǎng)絡(luò)變得非常有挑戰(zhàn)性。
我舉個(gè)例子,我們對(duì)視頻的理解其實(shí)是非常主觀的,因?yàn)閳D像相對(duì)內(nèi)容比較簡(jiǎn)單,所以我標(biāo)注的時(shí)候比較容易,但是對(duì)于視頻來說,主觀性會(huì)造成很大的區(qū)別,標(biāo)注有的時(shí)候不一致�?赡苓@個(gè)小朋友玩的是小朋友的獨(dú)輪車,這種也是自行車的一種,很多人就把它直接標(biāo)注成了騎自行車,但是有的時(shí)候大人騎自行車,甚至騎一些電動(dòng)車,也會(huì)被標(biāo)注成騎自行車,所以這個(gè)時(shí)候,我們標(biāo)注和現(xiàn)實(shí)是非常不統(tǒng)一的。
另外一個(gè)問題,我們?cè)谧鲆曨l研究的時(shí)候遇到了一個(gè)很大的問題,現(xiàn)在大家標(biāo)注的視頻很多都是與場(chǎng)景相關(guān)的視頻,大家標(biāo)注的比較多,真正我們做動(dòng)作識(shí)別,很多時(shí)候其實(shí)做的是場(chǎng)景識(shí)別,不是真正的時(shí)序建模。在我們做動(dòng)作識(shí)別的時(shí)候,什么動(dòng)作識(shí)別得好呢,是游泳,打籃球這類的運(yùn)動(dòng),為什么這類識(shí)別得好呢?因?yàn)橛斡疚覀冎灰R(shí)別游泳池我就知道是游泳了,打籃球我只要識(shí)別籃球場(chǎng),就知道是在打籃球。
所以很多時(shí)候,我們視頻分析里面做得好的這些動(dòng)作還是和場(chǎng)景相關(guān)的,但是真正有動(dòng)作的,比如說這是舉手還是把手放下來,我是站起來,還是坐下,中間的狀態(tài),時(shí)序建模現(xiàn)在做的是不太好的。一方面是因?yàn)閿?shù)據(jù)庫非常少,現(xiàn)在有一個(gè)專門講物體和人的交互的數(shù)據(jù)集,人的時(shí)序建模的數(shù)據(jù)現(xiàn)在有一些了,但是還是非常少。
現(xiàn)在的深度學(xué)習(xí)靜態(tài)的識(shí)別已經(jīng)很好了,我們?cè)龠M(jìn)一步是給網(wǎng)絡(luò)規(guī)模的視頻做分析,我認(rèn)為最大的一個(gè)挑戰(zhàn)是效率的問題。實(shí)際上圖像為什么快,一方面是因?yàn)樗菦]有時(shí)間特征的,我們計(jì)算機(jī)做時(shí)序建模是非常耗費(fèi)資源的。另外因?yàn)橐环昼娨曨l就有上百幀,所以視頻幀數(shù)本來就很大。
另外還有一個(gè)效率的問題,我們標(biāo)注視頻的效率也很低,如果人,比如我看到這個(gè)的時(shí)候,這是一個(gè)會(huì)場(chǎng),我一下子就標(biāo)記出來了,但是如果給大家一個(gè)一小時(shí)的視頻,我讓你標(biāo)出來什么時(shí)候人在跑,什么時(shí)候人在吃東西,什么時(shí)候人在切割。那么我標(biāo)注視頻的標(biāo)注量也是非常大的。而且我在大量的視頻中找相關(guān)的視頻,比如說在100段視頻中找人在切黃瓜的視頻就是非常困難的。
所以整個(gè)來說,我覺得一方面是計(jì)算機(jī)計(jì)算的效率要提高,另一方面我們標(biāo)注的效率也要提高,我大概主要是圍繞效率問題在講。
第一個(gè)我在講怎么樣提高視頻的標(biāo)注效率,視頻有一個(gè)很重要的應(yīng)用,我要把它定位出來,一個(gè)是空間定位,這有車,另外一個(gè)是時(shí)間定位,比如說我知道這一段視頻有一個(gè)小松鼠,我知道它什么時(shí)候在進(jìn)食,其實(shí)這個(gè)視頻可能總共有10分鐘或者20分鐘,但是只有幾幀是在進(jìn)食。大家可以想像,如果我是一個(gè)動(dòng)物學(xué)家,要看它的生活習(xí)性,看動(dòng)物是怎么吃東西的,可能我就是對(duì)這一部分感興趣,定位實(shí)際上是比較復(fù)雜的。我要在很長(zhǎng)的視頻里面,把這個(gè)定位出來,計(jì)算量是非常大的。
不僅計(jì)算量是很大的,人要標(biāo)注的也很多。傳統(tǒng)方法下的視頻定位操作是比較多的。人工做視頻,每一段視頻,小松鼠什么時(shí)候開始吃,什么時(shí)候完成吃,把這一段都要標(biāo)出來,這個(gè)標(biāo)注工程的工作量是非常大的。
因此大家就提出了弱監(jiān)督做定位,我有一段視頻可能有10分鐘,我知道這里面至少有一段視頻是小動(dòng)物在吃東西,那么在這種情況下,這段視頻有小東西在吃東西的鏡頭,但是可能10分鐘長(zhǎng)的視頻只有5秒在吃東西,這種效果雖然標(biāo)注很快。
這是我們今年和Facebook合作的一個(gè)工作,我們能不能這樣做,這段視頻,我標(biāo)注它有小動(dòng)物在吃東西,但是我不用標(biāo)注它的起始幀和結(jié)束幀,我在瀏覽這個(gè)視頻的時(shí)候,我發(fā)現(xiàn)這一幀它在吃東西,我只標(biāo)一幀,我鼠標(biāo)點(diǎn)一下就好了,這個(gè)時(shí)候我在視頻中標(biāo)注一幀,這樣計(jì)算機(jī)基于單幀標(biāo)注可以逐漸的擴(kuò)展信息。其實(shí)這個(gè)東西Facebook最早就想做這樣的概念,但是我們把這個(gè)東西做完之后,他們產(chǎn)品部門去研究,說這個(gè)技術(shù)是可行的,現(xiàn)在可能是在往產(chǎn)品里面加入。
這是我們研究的一個(gè)過程,簡(jiǎn)單來說其實(shí)就是這樣的,我標(biāo)了一幀之后,我通過單幀監(jiān)督的數(shù)據(jù)不斷的擴(kuò)展,往兩邊擴(kuò)展,在時(shí)間軸上不斷的擴(kuò)展,通過內(nèi)容分析,可能這些都是進(jìn)食的幀,或者相關(guān)的幀,然后把這個(gè)例子自動(dòng)的照出來再不斷的擴(kuò)展,這是一個(gè)迭代的過程。
另外還有一個(gè)比較重要的問題,我要做背景的檢測(cè),其實(shí)我要找最接近正例的背景,我們一般是通過置信度,也是找出正例和負(fù)例不斷的擴(kuò)展。這個(gè)是在講我們?cè)谧鲆曨l檢測(cè)的時(shí)候怎么提高檢測(cè)的效率。
這是一個(gè)快閃的視頻,我們的任務(wù)是讓機(jī)器人去檢測(cè),這是不是在快閃,大家想想我們?nèi)嗽跈z測(cè)的時(shí)候是怎么檢測(cè)的?現(xiàn)在計(jì)算機(jī)都是這樣做的,從頭到尾把視頻看完,然后說,這是快閃。
那么,其實(shí)真的要讓人去看,人可能剛開始發(fā)現(xiàn)這些內(nèi)容不相關(guān),我就快進(jìn)或者跳過去,中間看了幾幀我發(fā)現(xiàn)這個(gè)地方就是快閃,就不用看完了。我看了大概1/3,前面快進(jìn),后面看了1/3部分的視頻,我說這就是快閃,所以我就不看了。這個(gè)方法我們用強(qiáng)化學(xué)習(xí)去做,我們訓(xùn)練一個(gè)機(jī)器,跟人看視頻一樣,不是從頭到尾每一幀都看,我有的時(shí)候發(fā)現(xiàn)剛開始這些信息不重要,都是字幕介紹,我就用16秒的速度快進(jìn)。到后來我發(fā)現(xiàn)越來越有內(nèi)容,內(nèi)容越來越多,我就把快進(jìn)的速度降低。然后我發(fā)現(xiàn)這真的是和快閃相關(guān)了,我就一秒一秒認(rèn)真的看,我看了四幀之后發(fā)現(xiàn)這就是快閃,我就不用看完了。
所以,這個(gè)例子里我可能看四幀就知道了,我不需要均勻采樣,然后把它檢測(cè)出來。這是我們的做法,大概我們看1/60的幀,我們得到的結(jié)果和全看差不多。我們的題目當(dāng)時(shí)是說,你只看很小的一部分,就和全看是一樣了,我們是策略性的去挑,模仿人怎么去識(shí)別視頻的內(nèi)容。
這個(gè)是我們?cè)跈z測(cè)的過程中怎樣提高效率,這個(gè)方法實(shí)際上是說模型怎么樣快。檢測(cè)的時(shí)候我只看幾幀就可以了,但是模型還是很復(fù)雜的。因?yàn)槲覀冏鲆曨l分析用,凡是涉及到時(shí)間序列的檢測(cè),復(fù)雜度是呈指數(shù)級(jí)在增加的。但是視頻有一個(gè)特點(diǎn),冗余度非常高。比如說這是一個(gè)人在跳舞大家可以看到,這是從0到3秒,我都把它列出來,冗余度非常高。我們?cè)趺慈ダ眠@個(gè)冗余度來降低模型的復(fù)雜度呢?一般我們是說,模型越大,越復(fù)雜。如果模型越復(fù)雜,它的性能越好,但是如果是做簡(jiǎn)單的模型,雖然復(fù)雜度下降很多,可能有N個(gè)小模型,因?yàn)樗腥哂喽�,所以我用�?fù)雜的大模型帶若干個(gè)小模型之后,這樣我用N個(gè)小模型取代原來要做的N個(gè)大模型。
在這種情況下,我們希望把模型的效率提高,這有一個(gè)問題,一個(gè)大模型帶N個(gè)小模型,怎么樣累加起來,性能還很好?這是我們用的模型,實(shí)際上我們提出了一種快速的循環(huán)神經(jīng)網(wǎng)絡(luò)的思想,對(duì)模型做融合。實(shí)際上大家可以看性能是非常好的,比大模型都好。
最重要的是,大家可以看到,我們的計(jì)算量大概是削減了10倍,但是我們的結(jié)果還是很好的。這個(gè)技術(shù)也是和Facebook合作的,我們?cè)谒泄_的數(shù)據(jù)集上做的試驗(yàn),基本上性能是最好的,同時(shí)我們的復(fù)雜度降低了10倍。一個(gè)大模型帶若干個(gè)小模型,如果我們有好的方法,不但會(huì)更快,而且會(huì)更好。
這是我們今年新做的一個(gè)工作,因?yàn)橐曨l標(biāo)注太復(fù)雜了,所以我們想能不能用機(jī)器自主學(xué)習(xí)的方法去做,這個(gè)時(shí)候我們就說能不能使用視頻里面自己蘊(yùn)含的信息,我們能夠把好的神經(jīng)網(wǎng)絡(luò)訓(xùn)練出來。其中我們用到了教學(xué)視頻,有一個(gè)很好的特性,比如說我做飯,第一步切黃瓜,第二步黃瓜里面放鹽,第三步我倒醬油,第四步放到鍋里,第五步炒。所以一邊說一邊做這個(gè)動(dòng)作,這個(gè)時(shí)候給我們提供了很好的監(jiān)督信息,我們就不用在標(biāo)數(shù)據(jù),我們就是用教學(xué)視頻去訓(xùn)練機(jī)器的。
這個(gè)就是Google提出的自主訓(xùn)練的方法,基本上像填空,這些技術(shù)細(xì)節(jié)就不細(xì)說了,后來有人把它放到圖像這部分,我們的工作把它擴(kuò)展到三個(gè)支路,一支是做的動(dòng)作的特征,另一部分我們做區(qū)域的檢測(cè),另外因?yàn)樗幸贿呎f一邊做,所以我們有自然語言的模型。這個(gè)有一點(diǎn)像跨媒體的思想在里面,我們把圖像的特征,時(shí)序的動(dòng)作的特征和自然語言的信息放到一起再訓(xùn)練。這個(gè)結(jié)果是非常好的,我們?cè)谶@上面訓(xùn)練出來的模型,在所有的下游任務(wù)上都提高了性能,而且這個(gè)是我們不需要標(biāo)注的。整個(gè)過程不需要人工的標(biāo)注。但是我們比如說在視頻的文本摘要,在做視頻動(dòng)作切割以及做視頻的動(dòng)作定位和跨媒體檢索和視頻問答,所有的下游任務(wù)里我們都取得了最好的性能。
最后我講一下,以前的時(shí)候我們訓(xùn)練一個(gè)模型做一件事,我們現(xiàn)在就想能不能讓機(jī)器自主學(xué)習(xí),培養(yǎng)機(jī)器的自我思考能力。我們不僅讓設(shè)備學(xué)會(huì)做這件事,更要教會(huì)它怎么去學(xué)習(xí),這是元學(xué)習(xí)的基本。所以說我現(xiàn)在訓(xùn)練你,我讓你學(xué)會(huì)怎么去做這件事,這樣一來新的任務(wù)就很容易做自適應(yīng)。所以我們提出復(fù)合記憶網(wǎng)絡(luò),是深度學(xué)習(xí)的一個(gè)機(jī)制。我們提出了復(fù)合記憶網(wǎng)絡(luò),它有幾個(gè)好處,一是我們用摘要模型可以做快速的檢索,另外用分塊模型去做視頻的匹配,這個(gè)工作是一個(gè)小樣本,因?yàn)闄C(jī)器學(xué)東西就像我們小學(xué)、初中、高中上完之后,我再去大學(xué)里面學(xué)專業(yè)的知識(shí),可能很快就學(xué)會(huì)了。但是如果說,小學(xué)、初中,高中學(xué)的東西跟大學(xué)學(xué)的沒有關(guān)系,比如大學(xué)專業(yè)是學(xué)計(jì)算機(jī)、人工智能,但是我不上小學(xué)、初中、高中直接去上大學(xué)我又學(xué)不好,所以我們還是讓計(jì)算機(jī)有自主學(xué)習(xí)的能力,另外我們基于這個(gè)工作加了無監(jiān)督的數(shù)據(jù),我們教會(huì)機(jī)器自主學(xué)習(xí),機(jī)器有了學(xué)習(xí)的能力之后,小樣本數(shù)據(jù)就能學(xué)得很好了,在此基礎(chǔ)上,我們?cè)偌尤氪罅康臒o監(jiān)督的數(shù)據(jù),沒有標(biāo)注的數(shù)據(jù),我們的性能就又能提高一部分。
機(jī)器學(xué)會(huì)自主學(xué)習(xí)后大概就是這樣,基本上檢測(cè)每一個(gè)視頻,大概檢測(cè)兩三個(gè)樣本就可以得到較好的結(jié)果,我的分享結(jié)束,謝謝大家。
榜單收錄、高管收錄、融資收錄、活動(dòng)收錄可發(fā)送郵件至news#citmt.cn(把#換成@)。
海報(bào)生成中...