[No.L001]
8月10日消息,據(jù)國(guó)外媒體報(bào)道,谷歌本周發(fā)布了最新版的移送操作系統(tǒng)Android Pie,其中的亮點(diǎn)功能之一就是Smart Linkify。這是一個(gè)應(yīng)用程序編程接口,可在文本中檢測(cè)到地址、電話(huà)號(hào)碼和其他類(lèi)似信息并調(diào)用可點(diǎn)擊鏈接。雖然這聽(tīng)起來(lái)很炫酷,但事實(shí)上一切都是人工智能在背后作用的結(jié)果。
“在文本中識(shí)別出電話(huà)號(hào)碼和地址往往是一個(gè)難題,”谷歌人工智能軟件工程師盧卡斯齊卡(Lukas Zilka)在一篇博客文章中寫(xiě)道。“這不僅是因?yàn)槿藗冊(cè)诰帉?xiě)文本時(shí)有很多變化,而且文本中的組合代表什么樣的信息也經(jīng)常是模棱兩可(例如:’確認(rèn)號(hào)碼:857-555-3556’并不是一個(gè)電話(huà)號(hào)碼,即使它采用了類(lèi)似于電話(huà)號(hào)碼的形式)。”
齊卡解釋說(shuō),Smart Linkify是對(duì)現(xiàn)有Android Linkify API的改進(jìn),其底層由兩個(gè)緊湊的、低延遲的前饋神經(jīng)網(wǎng)絡(luò)組成——由稱(chēng)為節(jié)點(diǎn)的簡(jiǎn)單處理單元層組成的機(jī)器學(xué)習(xí)算法——其中借用了前版移動(dòng)操作西戎Android Oreo的智能文本選擇功能。
這兩個(gè)神經(jīng)網(wǎng)絡(luò)都依賴(lài)第三個(gè)模型生成的數(shù)據(jù)。該模型從網(wǎng)絡(luò)中提取電話(huà)號(hào)碼、地址、產(chǎn)品、地點(diǎn)和商業(yè)名稱(chēng),并隨機(jī)添加“文本上下文”和短語(yǔ)(例如“確認(rèn)號(hào)碼”和“ID”)。谷歌人工智能團(tuán)隊(duì)針對(duì)拉丁文字語(yǔ)言(英語(yǔ)、德語(yǔ)、波蘭語(yǔ)和捷克語(yǔ))使用一種算法,而針對(duì)日語(yǔ)、韓語(yǔ)、泰語(yǔ)、阿拉伯語(yǔ)和俄語(yǔ)等語(yǔ)種分別使用了完全不同的算法。
整個(gè)處理過(guò)程是這樣的:要分析的文本被拆分為單詞,然后從這些單詞中生成所有可能的最大長(zhǎng)度子序列。然后,系統(tǒng)中的第一個(gè)神經(jīng)網(wǎng)絡(luò)為每個(gè)子序列分配一個(gè)值(在0到1之間),表示它對(duì)自己的身份(例如給定的一串?dāng)?shù)字是密碼還是電話(huà)號(hào)碼)的置信度。
得分最低的子序列從列表中刪除,然后第二個(gè)神經(jīng)網(wǎng)絡(luò)介入,按類(lèi)型對(duì)子序列進(jìn)行分類(lèi)——即電話(huà)號(hào)碼、地址或非實(shí)體信息。
“(網(wǎng)絡(luò))需要知道實(shí)體周?chē)纳舷挛?除了實(shí)體本身的文本字符串之外)。在機(jī)器學(xué)習(xí)中,這是通過(guò)將這些部分表示為單獨(dú)的特性來(lái)實(shí)現(xiàn)的。”齊卡表示,“實(shí)際上輸入文本被拆分成幾部分,分別饋送到神經(jīng)網(wǎng)絡(luò)。”
為此,單詞被轉(zhuǎn)換成n-gram模型(有時(shí)也稱(chēng)為N元模子,是大詞匯連續(xù)語(yǔ)音識(shí)別中常用的一種語(yǔ)言模型),這種技術(shù)“將(詞匯)表示為一定長(zhǎng)度的所有字符子序列的集合”。而一個(gè)神經(jīng)網(wǎng)絡(luò)辨識(shí)這些單詞是否以大寫(xiě)字母開(kāi)頭——這是郵政地址的一個(gè)顯著特征。
在實(shí)踐中,假設(shè)句子“約翰應(yīng)該在周二打電話(huà)1- 800-9444-9494”這句話(huà),Smart Linkify首先會(huì)將“John應(yīng)該撥打”與“1- 800-9444-9494”分開(kāi),然后將“John應(yīng)該撥打”和“1-800-944-9494”分類(lèi)為非實(shí)體電話(huà)號(hào)碼和電話(huà)號(hào)碼,最后在網(wǎng)絡(luò)瀏覽器或應(yīng)用程序中通過(guò)這個(gè)電話(huà)號(hào)碼創(chuàng)建一個(gè)可點(diǎn)擊的鏈接。
在智能手機(jī)硬件的限制下,這種工作對(duì)人工智能團(tuán)隊(duì)來(lái)說(shuō)是一個(gè)額外的挑戰(zhàn)。他們通過(guò)量化(一種將連續(xù)范圍的值轉(zhuǎn)換為有限范圍離散值的壓縮技術(shù))以及在系統(tǒng)兩個(gè)神經(jīng)網(wǎng)絡(luò)之間共享某些數(shù)值表示等其他技術(shù)來(lái)解決這個(gè)問(wèn)題。
在不久的將來(lái),這個(gè)團(tuán)隊(duì)希望為日期和時(shí)間創(chuàng)建機(jī)器學(xué)習(xí)模型——尤其是識(shí)別文本中的非正式短語(yǔ),如“下周四”或“三周后”。
“我們相信這種架構(gòu)可以擴(kuò)展到其他設(shè)備上的文本注釋問(wèn)題,我們期待看到新的用例,”齊卡寫(xiě)道。
榜單收錄、高管收錄、融資收錄、活動(dòng)收錄可發(fā)送郵件至news#citmt.cn(把#換成@)。
海報(bào)生成中...