免费观看已满十八岁电视剧国语_人妻 色综合网站_欧美大尺寸suv视频_成人免费高清在线观看_久久久成人毛片无码_老头解开奶罩吸奶头高潮视频_sm调教室论坛入口_欧美夫妻交换久久丫1000_一级黄色大片在线免费观看了

首頁 > 資訊 > 行業(yè)

亞馬遜擬發(fā)布400萬字會話數(shù)據(jù)集 幫助進行自然語言處理研究

2019/04/02 14:40      騰訊科技 [No.H100]


  4月2日消息,據(jù)外媒報道,亞馬遜今天表示,將在2019年9月發(fā)布超過400萬字、針對自然語言處理研究的數(shù)據(jù)樣本。這個樣本名為“主題聊天數(shù)據(jù)集”(Topical Chat),其中包括眾包人類對話語料庫,并將其提供給參加年度Alexa Prize Socialbot大挑戰(zhàn)的團隊。

  亞馬遜稱,主題聊天數(shù)據(jù)集由21萬多個主題會話,超過410萬字,這使其成為世界上最大的公共會話和知識數(shù)據(jù)集之一。語料庫的每個會話和會話轉向都與提供給人群工作者的知識相關聯(lián),并且所涉及的知識都是從與實體相關各種“非結構化”和“松散結構”的文本資源中收集的。

  亞馬遜資深首席科學家迪利克·哈卡尼-圖爾(Dilek Hakkani-Tur)在博文中明確表示,這些會話都不是與Alexa客戶互動的結果。

  哈卡尼-圖爾說:“這些數(shù)據(jù)的收集目標是使下一步研究能夠在基于知識的神經(jīng)反應生成系統(tǒng)中進行,解決其他公開數(shù)據(jù)集沒有解決的自然對話中存在的困難挑戰(zhàn)。這將使研究人員能夠專注于人類在主題之間的轉換、知識的選擇與豐富,以及將事實和意見納入對話,并支持出版高質量、可重復的研究。”

  亞馬遜表示,競爭Alexa Prize Socialbot大獎的團隊將可以訪問擴展版本的數(shù)據(jù)集,其名稱為“擴展主題聊天數(shù)據(jù)集”,其中包括正在進行的收集和標注的結果。

  在今天的聲明發(fā)布大約六個月前,亞馬遜就曾開放過一個數(shù)據(jù)集,可以用來訓練AI模型,以識別不同語言和腳本類型的名稱。它被稱為“多語種命名實體音譯系統(tǒng)”,包括近40萬個名字,語言包括摘自維基百科的阿拉伯語、英語、希伯來語、日語片假名和俄語。(騰訊科技審校/金鹿)

  榜單收錄、高管收錄、融資收錄、活動收錄可發(fā)送郵件至news#citmt.cn(把#換成@)。

海報生成中...

分享到微博

掃描二維碼分享到微信

分享到微信
一鍵復制
標題鏈接已成功復制

最新新聞

熱門新聞