近日,百度副總裁王海峰博士受美國(guó)問(wèn)答網(wǎng)站Quora邀請(qǐng)回答網(wǎng)友提問(wèn),回答了頗具代表性的十個(gè)問(wèn)題,覆蓋從中國(guó)人工智能的發(fā)展階段到百度工程師的日常工作狀態(tài),十問(wèn)十答的形式,為美國(guó)網(wǎng)友打開(kāi)了解百度,了解中國(guó)人工智能的一扇窗。
Quora是問(wèn)答型SNS網(wǎng)站,被譽(yù)為“獲取高質(zhì)量?jī)?nèi)容的來(lái)源地”,聚集了大量高質(zhì)量知識(shí)用戶。海峰受邀答疑的session上線后,大量海外網(wǎng)友關(guān)注,提問(wèn)紛至沓來(lái)。
王海峰是百度搜索業(yè)務(wù)的負(fù)責(zé)人,同時(shí)還負(fù)責(zé)手機(jī)百度、百度信息流、百度新聞、百度手機(jī)瀏覽器、自然語(yǔ)言處理、知識(shí)圖譜、互聯(lián)網(wǎng)數(shù)據(jù)挖掘等業(yè)務(wù)。他是自然語(yǔ)言處理領(lǐng)域世界上最具影響力的國(guó)際學(xué)術(shù)組織ACL(Association for Computational Linguistics)50多年歷史上唯一出任過(guò)主席的華人,也是目前最年輕的ACL fellow,在人工智能領(lǐng)域有著重要影響力。此次參與網(wǎng)友問(wèn)答,闡述他對(duì)人工智能及相關(guān)技術(shù)現(xiàn)狀和未來(lái)的理解,王海峰在答案中寫(xiě)到,人類正在逐步進(jìn)入人工智能時(shí)代,而百度的優(yōu)秀工程師們將在其中發(fā)揮重要作用。
Quora問(wèn)答為英文,以下為問(wèn)答實(shí)錄的中文翻譯。
1、中國(guó)人工智能的現(xiàn)狀如何?
中國(guó)的人工智能正在高速發(fā)展。今年,中國(guó)政府工作報(bào)告中首次提到人工智能,這表明中國(guó)十分重視人工智能的發(fā)展。包括百度在內(nèi)的很多互聯(lián)網(wǎng)企業(yè)都在加大人工智能方面的投入。其中許多企業(yè)都設(shè)立了專門的部門,推動(dòng)人工智能在各自業(yè)務(wù)中的研發(fā)與應(yīng)用。傳統(tǒng)企業(yè)也在利用人工智能降低成本,以人工智能為核心業(yè)務(wù)的創(chuàng)業(yè)企業(yè)也像雨后春筍般涌現(xiàn)。
此外,中國(guó)有許多大學(xué)和研究機(jī)構(gòu)也在開(kāi)展人工智能方面的研究。近些年來(lái),越來(lái)越多的優(yōu)秀科學(xué)家與學(xué)者們投入到人工智能領(lǐng)域,其中不乏業(yè)內(nèi)公認(rèn)的佼佼者。在今年的舊金山AAAI大會(huì)上,有大約三分之一的論文來(lái)自中國(guó),比例與美國(guó)相當(dāng)。
人工智能不僅迅速應(yīng)用于各大行業(yè),也在改變?nèi)藗兊娜粘I?包括交通、教育、醫(yī)療等各個(gè)方面。我相信,人類正逐步進(jìn)入人工智能時(shí)代。
2、百度的機(jī)器學(xué)習(xí)團(tuán)隊(duì)會(huì)不會(huì)錄用不會(huì)講中文的人才?
百度已經(jīng)有不會(huì)講中文的員工,而且不光是機(jī)器學(xué)習(xí)團(tuán)隊(duì),其他團(tuán)隊(duì)也有。
3、自然語(yǔ)言處理技術(shù)在中文和英文上主要有哪些不同?
從語(yǔ)言學(xué)上來(lái)講,中文與英文截然不同。中文是孤立語(yǔ),文本的詞與詞之間沒(méi)有空格,主要通過(guò)詞序來(lái)表示語(yǔ)法關(guān)系。這些因素加大了中文在詞匯、句法和語(yǔ)義層面消除歧義的難度。相比中文,現(xiàn)代語(yǔ)言學(xué)的概念與語(yǔ)法更適用于英文。
目前,大多數(shù)主流自然語(yǔ)言處理技術(shù)都同語(yǔ)言無(wú)關(guān),比如各種統(tǒng)計(jì)或神經(jīng)網(wǎng)絡(luò)的算法。我們會(huì)根據(jù)不同的應(yīng)用需求,對(duì)這些方法再進(jìn)行語(yǔ)言相關(guān)的優(yōu)化。
比如,百度在2015年5月推出了首個(gè)在線神經(jīng)機(jī)器翻譯系統(tǒng)。其核心的NMT模型是與語(yǔ)言無(wú)關(guān)的,可以得到相當(dāng)好的翻譯結(jié)果。為進(jìn)一步優(yōu)化翻譯效果,我們又根據(jù)具體語(yǔ)言的特征對(duì)翻譯系統(tǒng)進(jìn)行了優(yōu)化。
4、百度有沒(méi)有與IBM Watson或者Facebook的Wit.ai類似的可訪問(wèn)的AIAPI?
請(qǐng)?jiān)L問(wèn)ai.baidu.com,就可使用語(yǔ)音、圖以像、NLP、用戶畫(huà)像等百度人工智能技術(shù)。
5、未來(lái)十年里搜索引擎會(huì)有怎樣的發(fā)展?
現(xiàn)在一說(shuō)到搜索引擎,大多數(shù)人會(huì)想到搜索框和搜索結(jié)果。那么未來(lái)的搜索引擎會(huì)是什么樣子呢?現(xiàn)在還不好說(shuō)。但是我們都愿意看到更加強(qiáng)大的搜索引擎,能夠讓我們?cè)谌我鈭?chǎng)景和產(chǎn)品中利用視覺(jué)、聽(tīng)覺(jué)甚至觸覺(jué)等交互形式搜索。搜索將會(huì)無(wú)處不在。
首先,對(duì)用戶意圖和內(nèi)容更加深入的理解,以及更加精準(zhǔn)的對(duì)意圖與內(nèi)容的匹配,都將大大增強(qiáng)搜索引擎的使用體驗(yàn)。理解用戶意圖不再僅依賴一次查詢,而是包括更加復(fù)雜的搜索上下文、時(shí)間、位置、設(shè)備和用戶的個(gè)性特征。而對(duì)內(nèi)容的理解也將大大深入,不僅能更好的理解語(yǔ)義、語(yǔ)境、觀點(diǎn),還能理解內(nèi)容的其他各個(gè)方面,從內(nèi)容中抽取出知識(shí)。意圖與內(nèi)容的匹配也將考慮上述所有因素,提供更加貼合個(gè)人特征與具體語(yǔ)境的搜索結(jié)果。此外,搜索引擎也會(huì)更像“應(yīng)答引擎”和“執(zhí)行引擎”,能夠直接回答問(wèn)題或執(zhí)行用戶指令。
其次,搜索引擎與用戶的交互界面也將有更多創(chuàng)新變化。除鍵盤輸入外,還將更加廣泛地使用語(yǔ)音和圖片等輸入方式。隨著語(yǔ)音、圖像等技術(shù)更加成熟和實(shí)用,用戶將可以使用更加高效、便捷的多模搜索。自然語(yǔ)言交互將成為搜索引擎的主流交互模式。用戶可以與搜索引擎對(duì)話,直接告訴搜索引擎他們的需求,這比打開(kāi)鍵盤輸入要方便實(shí)用得多。用戶可以通過(guò)多輪對(duì)話與搜索引擎交互,百度是最早嘗試運(yùn)用這種全新的交互方法提升用戶搜索體驗(yàn)的公司之一。
第三,搜索將不僅僅是使用搜索引擎,還會(huì)融入到各種產(chǎn)品中。比如說(shuō),搜索將成為智能硬件產(chǎn)品的核心功能。未來(lái),搜索將無(wú)處不在,隨處可見(jiàn)。而且,我們還將重新定義可搜索的內(nèi)容,不僅包括當(dāng)前搜索引擎已經(jīng)索引的內(nèi)容,還將納入更多服務(wù)、物體、設(shè)備和數(shù)據(jù)。
搜索引擎已是大家日常生活中必不可少的工具。用戶需求決定搜索引擎的發(fā)展方向,而技術(shù)進(jìn)步?jīng)Q定了搜索引擎的發(fā)展高度。
6、百度產(chǎn)品如何應(yīng)用NLP?
百度研發(fā)了多種NLP技術(shù),包括知識(shí)圖譜、語(yǔ)義理解、內(nèi)容標(biāo)簽、情感分析、文本生成、摘要、深度問(wèn)答、機(jī)器翻譯和對(duì)話系統(tǒng)等。這些技術(shù)廣泛應(yīng)用于百度的搜索、信息流、智能助手等產(chǎn)品中,為數(shù)億用戶提供服務(wù)。我們還將這些技術(shù)集成到統(tǒng)一的平臺(tái)之中,名為NLPC平臺(tái)。NLPC平臺(tái)提供二十多個(gè)NLP模塊和技術(shù)解決方案,為百度產(chǎn)品提供全方位支持。我們的NLPC平臺(tái)每天有上千億次請(qǐng)求。
比如在搜索上,分詞、命名實(shí)體識(shí)別、句法分析和復(fù)述等NLP模塊都是其必不可少的基礎(chǔ)模塊。這些模塊一直在根據(jù)應(yīng)用需求優(yōu)化并實(shí)現(xiàn)技術(shù)突破。另一個(gè)NLP技術(shù)在搜索中的典型應(yīng)用是問(wèn)答。高性能的問(wèn)答系統(tǒng)需要對(duì)查詢實(shí)行精準(zhǔn)的語(yǔ)義語(yǔ)法分析,構(gòu)建大規(guī)模知識(shí)圖譜,以及對(duì)網(wǎng)頁(yè)搜索結(jié)果全面深入的分析。用戶在搜索框中輸入問(wèn)題,搜索引擎就可以直接提供答案。很多用戶會(huì)使用搜索引擎查找相關(guān)信息,來(lái)幫助做出決策。在這種情況下,情感分析(即觀點(diǎn)挖掘),可以抽取出很多候選觀點(diǎn),聚合后提供給用戶作為決策參考。
再比如在信息流產(chǎn)品中,文章質(zhì)量十分重要。NLP技術(shù)用于甄別并去除謠言、剽竊等垃圾文章。另外,文本分析可以識(shí)別出高質(zhì)量文章,并為文章打上描述其質(zhì)量的標(biāo)簽。從各個(gè)層面說(shuō)明用戶偏好的用戶模型也要用到NLP技術(shù)。
總而言之,對(duì)于各種與語(yǔ)言相關(guān)的產(chǎn)品,NLP技術(shù)都是必不可少。
7、你如何看待自己從科學(xué)家到互聯(lián)網(wǎng)公司業(yè)務(wù)副總裁的職業(yè)轉(zhuǎn)變?
我熱愛(ài)技術(shù),并且喜歡投入到技術(shù)研究中去。我相信技術(shù)可以改變世界。百度為我提供了一個(gè)理想的平臺(tái),在這里,我的技術(shù)工作得以快速、直接地惠及用戶。這就是我加入百度的首要原因。我在百度的前幾年負(fù)責(zé)包括NLP、語(yǔ)音、圖像、數(shù)據(jù)挖掘、知識(shí)圖譜、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)等在內(nèi)的技術(shù)團(tuán)隊(duì)。后來(lái),我意識(shí)到偉大的產(chǎn)品是連接技術(shù)和廣大用戶的橋梁,并能推動(dòng)技術(shù)進(jìn)步。偉大的產(chǎn)品不僅需要先進(jìn)的技術(shù),更需要出色的產(chǎn)品設(shè)計(jì)、運(yùn)營(yíng)和高效管理。因此,我逐步從只帶技術(shù)團(tuán)隊(duì)轉(zhuǎn)變?yōu)槿娴臉I(yè)務(wù)管理者。我現(xiàn)在的團(tuán)隊(duì)超過(guò)3000人,包括技術(shù)、產(chǎn)品、運(yùn)營(yíng)等各方面人才,他們年輕、充滿活力、富有激情。我們同心協(xié)力,致力為用戶提供更好的技術(shù)和產(chǎn)品,進(jìn)而使人們的生活更美好。
在管理大型綜合業(yè)務(wù)團(tuán)隊(duì)時(shí),首先要設(shè)定戰(zhàn)略和目標(biāo),然后組建合適的執(zhí)行團(tuán)隊(duì)。良好的制度和文化對(duì)于一個(gè)大團(tuán)隊(duì)來(lái)說(shuō)非常重要,這是業(yè)務(wù)健康發(fā)展的支持和保證。與此同時(shí),我會(huì)始終關(guān)注技術(shù)突破,用戶需求的演變以及整個(gè)社會(huì)環(huán)境的發(fā)展變化。
8、“百度”這個(gè)詞的意思是什么?
我們的名字“百度”,其靈感來(lái)源于800年前中國(guó)宋代的一首詞。“......眾里尋他千百度,驀然回首,那人卻在燈火闌珊處。”百度的字面意思是“數(shù)百次”,代表對(duì)理想的不懈追求探索。
9、在未來(lái)5到10年,我們將在自然語(yǔ)言處理領(lǐng)域看到哪些進(jìn)步?
在機(jī)器翻譯、語(yǔ)義理解、問(wèn)答和對(duì)話技術(shù)方面將會(huì)有重大突破。而且這些技術(shù)將被廣泛應(yīng)用,使得人與計(jì)算機(jī)之間、人與各種智能硬件之間以及人與人之間的溝通和交互方式都會(huì)發(fā)生改變。
上述技術(shù)進(jìn)步將受益于以下四個(gè)方面的技術(shù)進(jìn)展:大數(shù)據(jù)、學(xué)習(xí)機(jī)制、知識(shí)圖譜、推理和規(guī)劃。
大數(shù)據(jù)——隨著互聯(lián)網(wǎng)的持續(xù)蓬勃發(fā)展,數(shù)據(jù)的數(shù)量和類型都在高速增長(zhǎng)。即便是那些傳統(tǒng)行業(yè)也開(kāi)始把他們的數(shù)據(jù)遷移到線上,一切都在線上被連接起來(lái)。數(shù)據(jù)的價(jià)值隨著物聯(lián)網(wǎng)發(fā)展會(huì)越來(lái)越大。
學(xué)習(xí)機(jī)制——學(xué)習(xí)機(jī)制也將持續(xù)進(jìn)步,使我們能從更大規(guī)模數(shù)據(jù)中學(xué)習(xí)到更多知識(shí)。
知識(shí)圖譜——有了更大規(guī)模數(shù)據(jù)和更強(qiáng)大的學(xué)習(xí)機(jī)制,我們可以構(gòu)建更完善更龐大的知識(shí)圖譜,對(duì)整個(gè)現(xiàn)實(shí)世界進(jìn)行建模。
推理和規(guī)劃——有了更完善更龐大的知識(shí)圖譜,我們可以在推理和規(guī)劃方面取得突破,推理和規(guī)劃的能力將使自然語(yǔ)言處理系統(tǒng)變得更加智能。
10、百度工作的工程師是怎樣的?
百度工程師的典型工作狀態(tài)是這樣的:坐在工位戴上耳機(jī)一寫(xiě)代碼就是數(shù)個(gè)小時(shí);在會(huì)議室或休息室與其他工程師一起討論技術(shù)問(wèn)題或系統(tǒng)設(shè)計(jì)。你會(huì)看到他們一邊在餐廳吃午飯或晚餐,一邊在互相談?wù)撍惴▋?yōu)化;你會(huì)看到他們工作到深夜,廢寢忘食。
這里的工程師有他們自己鮮明的風(fēng)格:務(wù)實(shí)、自驅(qū)和負(fù)責(zé)到底。我們鼓勵(lì)工程師將想法付諸實(shí)踐,有激情,有毅力,有責(zé)任感,能使夢(mèng)想成真。百度搜索引擎每天為數(shù)億人提供服務(wù)的同時(shí),也使百度工程師能更好理解大多數(shù)用戶的需求,進(jìn)而有機(jī)會(huì)專注于最有價(jià)值的問(wèn)題,并提出創(chuàng)新解決方案。百度作為一個(gè)平臺(tái),支持這有才華有熱情的工程師實(shí)現(xiàn)他們的夢(mèng)想。
年輕的工程師也有機(jī)會(huì)去豐富自己的愛(ài)好,業(yè)余時(shí)間可以在健身房和瑜伽室進(jìn)行鍛煉。
在百度,我們?yōu)槊總(gè)新入職的工程師提供導(dǎo)師計(jì)劃。導(dǎo)師會(huì)指導(dǎo)提升他們的技術(shù)能力,并幫助他們熟悉公司。我們?yōu)楣こ處熖峁┰诰學(xué)習(xí)課程,還有資深高工的技術(shù)講座。工程師可以選擇自己感興趣的話題,了解前瞻技術(shù)進(jìn)展。我們定期舉辦黑客馬拉松,鼓勵(lì)工程師大膽思考,與產(chǎn)品、設(shè)計(jì)等不同角色合作,創(chuàng)造出驚艷的產(chǎn)品。
我相信百度是工程師鉆研技術(shù)、提升自己最好的平臺(tái)之一。
榜單收錄、高管收錄、融資收錄、活動(dòng)收錄可發(fā)送郵件至news#citmt.cn(把#換成@)。
海報(bào)生成中...