免费观看已满十八岁电视剧国语_人妻 色综合网站_欧美大尺寸suv视频_成人免费高清在线观看_久久久成人毛片无码_老头解开奶罩吸奶头高潮视频_sm调教室论坛入口_欧美夫妻交换久久丫1000_一级黄色大片在线免费观看了

首頁 > 資訊 > 評論

當(dāng)Deep Seek學(xué)會撒謊后,人類真的束手無策嗎

2025/02/17 15:10      互聯(lián)網(wǎng)那些事


  “人無完人,金無足赤”這句話,哪怕是對Deep Seek也同樣適用。

  2月10日,原人民日報海外版總編輯詹國樞發(fā)表了一篇名為《DeepSeek的致命傷——說假話》的文章,向我們指出了時下Deep Seek最大的問題之一。

  即一本正經(jīng)地胡說八道。

  詹國樞表示,在借助Deep Seek撰寫文章的過程中,他發(fā)現(xiàn)對方經(jīng)常會憑空捏造事實、提供錯誤信息。其中最離譜的莫過于Deep Seek把《平凡的世界》這本書的作者,從路遙爆改成了自己的老班長朱大建。

  幻覺難題終究找上了Deep Seek

  事實上,詹國樞的故事在今天并非個例。

  以小紅書上的帖子為例。

  只要我們輸入“Deep Seek 編造”“Deep Seek 睜眼說瞎話”一類的詞條,就會看見大量網(wǎng)友發(fā)文控訴Deep Seek在對話過程中提供假資料、假文獻(xiàn)、假作者等信息。

  這也就意味著,“幻覺難題”這一全球AI產(chǎn)品普遍面臨的窘?jīng)r,終究是找上了Deep Seek。

  在用戶和AI互動的途中,倘若對話內(nèi)容把大模型推到了“數(shù)據(jù)缺陷”“長尾知識回憶不足”“推理復(fù)雜度溢出”等禁區(qū)的邊緣,其所生成的內(nèi)容就會和用戶的要求、現(xiàn)實世界情況出現(xiàn)偏差,讓AI開始一本正經(jīng)地胡說八道。

  回到Deep Seek本身。

  Vectara HHEM的人工智能幻覺測試結(jié)果顯示DeepSeek-R1的幻覺率高達(dá)14.3%,這個數(shù)據(jù)幾乎是其兄弟模型DeepSeek-V3的4倍。

  這也就意味著,在交互過程中DeepSeek-R1為了完成用戶的需求往往會“不惜代價”。如果你想讓R1去寫一篇論文或是分析某種現(xiàn)象,那么它不僅可能會虛空杜撰文獻(xiàn)或規(guī)章制度,還會用華麗的文字把邏輯Bug掩蓋起來,讓人難以發(fā)現(xiàn)。

  舉個例子。

  網(wǎng)紅Levy Rozman曾組織了一場“AI棋手爭霸賽”。當(dāng)天DeepSeek-R1會和Chat GPT在國際象棋的棋盤上一決高下,以此證明自己的推理能力。

  比賽初期,R1曾因主動放棄棋子而失去優(yōu)勢;比賽中期,眼看不敵GPT的R1突然靈光一閃,告知GPT國際象棋更新了游戲規(guī)則,成功用自己的小兵吃掉了對方的皇后;比賽后期,R1則又通過“嘴炮”迫使GPT主動認(rèn)輸,讓自己成為了本場比賽的冠軍。

  你看,當(dāng)Levy Rozman沒有給模型做出“不準(zhǔn)修改規(guī)則”的限制時。R1為了實現(xiàn)“贏棋”這個底層命令,就會開始一本正經(jīng)地胡說八道直至完成任務(wù)。同樣的,當(dāng)我們在限制條件不清晰的情況下要求R1撰寫論文或是完成其他任務(wù),它就會基于“完成內(nèi)容生成”這一底層命令,向我們輸出與現(xiàn)實情況不符的結(jié)果。

  AI出現(xiàn)幻覺的原因是什么

  如果想將AI產(chǎn)品用于生產(chǎn),我們就會發(fā)現(xiàn)它是需要引導(dǎo)的。

  在和AI的對話過程中,往往是我們先說出基礎(chǔ)需求,再由AI反饋多個分支可能。事后我們再次從多個分支可能中,找到自己所需要的可能或讓AI就此內(nèi)容生成大綱,最終通過不斷細(xì)化交流,得到自己想要的反饋。

  在這里,AI和人類互動、給出分支的核心是“訓(xùn)練數(shù)據(jù)庫”。開發(fā)者們會提前把各種稀奇古怪的知識喂給AI,讓它在學(xué)習(xí)之余進(jìn)行壓縮和分類,以便日后根據(jù)用戶所提供的關(guān)鍵詞快速給出反饋。

  舉個例子。

  當(dāng)我們問AI姚明有多高的時候,因為姚明是一位知名運動員,所以互聯(lián)網(wǎng)資料、訓(xùn)練數(shù)據(jù)庫里到處都是他的相關(guān)信息,AI很快就能借助這些資料做出準(zhǔn)確反饋。

  但當(dāng)我們問他“阿強有多高”甚至是“住在翻斗花園6號樓402室的阿強有多高”時,由于互聯(lián)網(wǎng)上并沒有阿強的準(zhǔn)確信息,所以哪怕我們給到了阿強的住址也無法讓AI錨定到我們特指的那個人。

  這時AI為了完成“回答用戶”這個底層命令,就可能會把阿強從一個“具體的人”虛化成一個“人”,然后從我國居民的平均身高區(qū)間里抓取一個數(shù)字丟給我們。

  AI的幻覺是什么?

  是它為了完成任務(wù)而腦補的結(jié)果。

  AI為什么會腦補?

  因為它的數(shù)據(jù)庫里沒有相應(yīng)的信息。但為了滿足用戶那過于抽象、復(fù)雜的要求,它會選擇杜撰出一定的信息,再基于此生成內(nèi)容交給我們。

  令人無奈的是,AI會腦補就算了,人家的腦補流程還具有邏輯。

  當(dāng)數(shù)據(jù)庫里沒有和“a”相關(guān)的資料時,它就會找一個和“A”相關(guān)的資料嵌套到內(nèi)容里。比如我們向AI詢問阿強的身高,它只會把阿珍、阿龍的身高偽裝一下交給我們,或是在我國居民的平均身高區(qū)間中抓取一個數(shù)字,而不是把一只兔子或一個郵筒的身高交給我們。

  因為阿強是人類,AI即使出現(xiàn)幻覺也只會在“人類”這個大類目下輸出錯誤信息,它絕不會把一輛汽車的外觀參數(shù)套用到人類的身上。

  也正是因為這種“邏輯壁壘”的存在,AI在胡說八道的時候才會顯得一本正經(jīng),讓人們難以分辨。

  馴服AI的第一關(guān)是規(guī)避幻覺

  那么問題就來了。

  既然AI胡說這件事無法在短時間內(nèi)避免,我們在使用過程中又能做些什么來減輕AI幻覺對自己的影響呢?

  在騰訊科技所發(fā)布的文章中,他們曾提供了4個對抗AI幻覺的方案。

  1:保持警惕。用戶要讓自己意識到“大模型是會說謊的”,然后對它們所反饋的結(jié)果多加審查。對地名、人名、參考文獻(xiàn)一類的內(nèi)容或數(shù)據(jù)進(jìn)行重點關(guān)照,千萬不要AI說什么,我們就相信什么。

  2:交叉驗證。我們在得到AI所反饋的結(jié)果后,盡量不要直接拿去使用。而是要從中抓取關(guān)鍵詞進(jìn)行延伸搜索,看看生成結(jié)果所參考的內(nèi)容是否存在原始資料或可靠信源。

  3:引導(dǎo)模型。用戶在和AI的對話過程中,應(yīng)該學(xué)會為其手動添加“限制條件”。比如我們想要讓它生成一篇文章,可以先把參考資料手動發(fā)給對方進(jìn)行分析,并要求它盡可能忠于原件進(jìn)行輸出,去手動規(guī)避AI胡說八道的可能性。

  4:聯(lián)網(wǎng)搜索。現(xiàn)在的大模型或多或少都有聯(lián)網(wǎng)搜索功能,如果我們要寫、分析一些時效性特別強的東西,就要學(xué)會善用聯(lián)網(wǎng)搜索按鈕。正如上文“阿強身高”的那個例子一樣,當(dāng)AI在數(shù)據(jù)庫里無法錨定目標(biāo)的時候,它們就會挪用其他內(nèi)容進(jìn)行結(jié)果杜撰。適當(dāng)使用聯(lián)網(wǎng)搜索功能則可以起到“更新數(shù)據(jù)庫”的作用,減少AI胡說八道的可能性。

  在DeepSeek-R1爆火后,很多完全沒有AI使用經(jīng)驗的人也注冊了賬號,想要趁機和這位來自賽博世界的“專家”交個朋友,甚至把自己賺取“睡后收入”的期望交給對方。

  另由于對周邊知識的相對匱乏,這些用戶也會“接近本能”般的高度信任AI所生成的結(jié)果。

  殊不知,在這個信息爆炸的時代。

  想要實現(xiàn)彎道超車的目標(biāo),與其把精力放在“如何用Deep Seek賺到100萬”之類的教程身上。

  我們更應(yīng)該做的是在大腦里建立“信息篩選機制”,把未來押寶在“會用AI工具的自己”身上,而非押寶在“聽從AI指令的自己”身上。

  參考:

  碼字工匠老詹:DeepSeeK的致命傷——說假話

  智谷趨勢:當(dāng)心,第一批用DeepSeek的人,已經(jīng)被坑慘了

  騰訊科技:DeepSeek-R1超高幻覺率解析:為何大模型總“胡說八道”?

  榜單收錄、高管收錄、融資收錄、活動收錄可發(fā)送郵件至news#citmt.cn(把#換成@)。

海報生成中...

分享到微博

掃描二維碼分享到微信

分享到微信
一鍵復(fù)制
標(biāo)題鏈接已成功復(fù)制

最新新聞

熱門新聞