免费观看已满十八岁电视剧国语_人妻 色综合网站_欧美大尺寸suv视频_成人免费高清在线观看_久久久成人毛片无码_老头解开奶罩吸奶头高潮视频_sm调教室论坛入口_欧美夫妻交换久久丫1000_一级黄色大片在线免费观看了

首頁(yè) > 資訊 > 評(píng)論

AI數(shù)據(jù)告急,大廠(chǎng)盯上廉價(jià)年輕人

2024/09/03 16:55      字母榜


  為了拿到新數(shù)據(jù)、訓(xùn)練AI大模型,字節(jié)等互聯(lián)網(wǎng)大廠(chǎng)正在親自下場(chǎng),以單次300元不等的價(jià)格招募“AI錄音員”,定制語(yǔ)料庫(kù)。

  坐落于北京大鐘寺的字節(jié)辦公樓,集中了字節(jié)的抖音業(yè)務(wù)團(tuán)隊(duì)和火山引擎業(yè)務(wù)團(tuán)隊(duì),從年初便開(kāi)始招募素人為豆包大模型錄音。兩人結(jié)組、單次3小時(shí),包括80分鐘的自由聊天,有提示詞的60組對(duì)話(huà),單次結(jié)算金額為300元。

  長(zhǎng)達(dá)3小時(shí)的錄音,有至少2名字節(jié)員工全程陪同。“對(duì)話(huà)不能水時(shí)長(zhǎng),要有內(nèi)容和信息,質(zhì)量太差會(huì)酌情扣款”,“不能修改提示詞,大模型理解不了”。從晚上6點(diǎn)到9點(diǎn),字節(jié)員工在錄制過(guò)程中的指令,則更多透露著對(duì)于錄音質(zhì)量的關(guān)注。

  實(shí)際上,成都、太原、貴州等二線(xiàn)城市,早已成了字節(jié)、百度、阿里等大廠(chǎng)的AI數(shù)據(jù)外包之城。“去年,數(shù)據(jù)標(biāo)注、方言朗讀,專(zhuān)科生就能做�,F(xiàn)在招的都是211、985的實(shí)習(xí)生帶外包。”某大模型產(chǎn)品經(jīng)理表示。

  在9月剛剛推出視頻大模型的MiniMax,其創(chuàng)始人閆俊杰告訴字母榜,在上海,除了語(yǔ)料公司的高質(zhì)量數(shù)據(jù)之外,MiniMax也會(huì)采購(gòu)一些平臺(tái)化數(shù)據(jù)。

  數(shù)據(jù)、算法和算力是AI大模型的三大支柱,其中數(shù)據(jù)是大模型進(jìn)行訓(xùn)練的根基。但由于互聯(lián)網(wǎng)數(shù)據(jù)散布在不同平臺(tái),并被重重壁壘所環(huán)繞,AI大模型可以用來(lái)訓(xùn)練的公開(kāi)數(shù)據(jù)正在走向枯竭。

  6月,研究機(jī)構(gòu)Epoch AI發(fā)布了一項(xiàng)新研究預(yù)測(cè),可用于AI語(yǔ)言模型公開(kāi)訓(xùn)練的數(shù)據(jù),將在2026年到2032年間,被科技公司耗盡。而早在2023年5月,OpenAI首席執(zhí)行官阿爾特曼便公開(kāi)承認(rèn),AI公司在不久的將來(lái)會(huì)耗盡互聯(lián)網(wǎng)上所有的數(shù)據(jù)。

  如何尋找高質(zhì)量的新數(shù)據(jù)“喂養(yǎng)”大模型,成了所有AI大模型團(tuán)隊(duì)的共同難題。

  由于存在擅自使用第三方數(shù)據(jù)的嫌疑,一些大公司屢屢陷入糾紛。8月,OpenAI被超過(guò)100位YouTube主播集體訴訟,指控其擅自轉(zhuǎn)錄了數(shù)百萬(wàn)個(gè)YouTube 視頻來(lái)訓(xùn)練大模型。英偉達(dá)、蘋(píng)果、Anthropic等巨頭也涉及其中。

  對(duì)于大廠(chǎng)而言,擁有自己的閉源高質(zhì)量數(shù)據(jù),才能保證喂養(yǎng)大模型的數(shù)據(jù)時(shí)效性和質(zhì)量。而跳過(guò)品控不穩(wěn)定的第三方平臺(tái),試圖親自下場(chǎng)為AI寫(xiě)“劇本”,或許是大模型廠(chǎng)商們的一條新路子。

  A

  今年初,在小紅書(shū)等平臺(tái)上,悄悄出現(xiàn)了標(biāo)價(jià)300元一次的AI錄音兼職。

  相比起B(yǎng)OSS直聘等平臺(tái)30-55元時(shí)薪的AI錄音兼職,300元單次、錄制地在北京大鐘寺的所謂“頭部大廠(chǎng)錄音兼職”顯得頗具誘惑力。

  8月,通過(guò)微信被拉到錄音群內(nèi)時(shí),字母榜(ID: wujicaijing)發(fā)現(xiàn)群內(nèi)已經(jīng)有了200多名等候錄音的人。由于規(guī)定為2人一組錄制對(duì)話(huà),時(shí)間長(zhǎng)達(dá)3小時(shí),進(jìn)群后,“找搭子”“有人和我一起錄嗎?”的微信消息彈出的最多。

  而實(shí)際上,300元一次,做AI錄音員,“給AI寫(xiě)劇本”并不輕松。

  首先在錄音前,所有人都必須上傳一段2-3分鐘的對(duì)話(huà)錄音做“樣音”,字節(jié)的審核人員要通過(guò)樣音的效果來(lái)決定是否通知兼職錄音。而這個(gè)過(guò)程會(huì)有3名員工負(fù)責(zé)審核,其中2名員工審核都通過(guò),才能直接預(yù)約錄音時(shí)間,如果不通過(guò),還有交叉審核。

  在樣音二審過(guò)后,張雪在提交樣音的第二周預(yù)約了晚上6-9點(diǎn)的錄音時(shí)間。而在群聊內(nèi),不少人都被卡在了樣音環(huán)節(jié),“審核老師喜歡能聊的,愛(ài)聊的。”情緒高昂的對(duì)話(huà),內(nèi)容有主題,讓更多的人卡在了篩選的第一道門(mén)檻。

  錄制當(dāng)晚,張雪隔著錄音室的透明玻璃坐在椅子上,調(diào)節(jié)到語(yǔ)音能夠被清晰錄入的最佳位置,通過(guò)耳機(jī)收聽(tīng)字節(jié)員工的指令。

  第一個(gè)環(huán)節(jié),就是兩人80分鐘的無(wú)主題自由聊天。而字節(jié)人員的要求,則是聊天不能是“片湯話(huà)”,要有內(nèi)容,同時(shí)每個(gè)話(huà)題都不能超過(guò)10分鐘,并且不能出現(xiàn)大段大段的獨(dú)白,要保證是相對(duì)平均的對(duì)話(huà)狀態(tài)。

  張雪和搭檔在錄音室內(nèi)隔著巨大的頭麥對(duì)談,盡量不停頓地談話(huà)80分鐘。同時(shí),還要盡量克制身體不能亂動(dòng),發(fā)出咳嗽聲、笑聲等擾亂錄音質(zhì)量的聲音。

  為了保證語(yǔ)音質(zhì)量,字節(jié)人員通過(guò)耳機(jī)不時(shí)插入,提示出現(xiàn)了雜音要重新錄制,或者聊天“不自然,引導(dǎo)痕跡過(guò)重”,也要重新錄制。高質(zhì)量語(yǔ)音的標(biāo)準(zhǔn)是聊天自然、話(huà)題連續(xù),情緒積極但不能搶話(huà),還要有內(nèi)容、不流水賬。經(jīng)過(guò)反復(fù)重調(diào),第一個(gè)環(huán)節(jié)就花費(fèi)了近2個(gè)小時(shí)的時(shí)間。

  而到了第二個(gè)環(huán)節(jié),要錄制有提示詞的60組對(duì)話(huà)。盡管有了劇本可供參考,但作為AI錄音員,張雪不僅要根據(jù)情境編對(duì)話(huà),還要保證嚴(yán)格的對(duì)話(huà)模式,即上一組對(duì)話(huà)是A結(jié)束收尾,那么下一組對(duì)話(huà)必須由B開(kāi)始。

  同時(shí),為了適應(yīng)大模型的調(diào)試需求,每一次的指令都必須清晰明確地說(shuō)出提示詞,“可以詳細(xì)一些嗎?可以更詳細(xì)一些嗎?可以再詳細(xì)一些嗎?”而在耳機(jī)內(nèi),字節(jié)人員也明確表示,劇本都可以改,但只有提示詞不能動(dòng),換個(gè)說(shuō)法,AI就可能難以識(shí)別。

  為了保證錄音質(zhì)量,錄音不清晰、吞字或者情緒不足,都會(huì)重新錄制。等錄制結(jié)束,張雪離開(kāi)大鐘寺,時(shí)間已經(jīng)走到了晚上近10點(diǎn)。而一次3小時(shí)的錄音,字節(jié)人員一天要錄制3場(chǎng),每周的日程幾乎都是滿(mǎn)的。

  除了北京,字節(jié)已經(jīng)在上海、杭州、重慶、南京、成都、天津等多個(gè)城市招募錄音員。

  B

  對(duì)于渴求新數(shù)據(jù)的大模型廠(chǎng)商們來(lái)說(shuō),“砸錢(qián)拿數(shù)據(jù)”的操作并不新奇。

  2023年,隨著AI大模型成為新風(fēng)口,大廠(chǎng)們不僅直接通過(guò)第三方公司購(gòu)買(mǎi)數(shù)據(jù),也創(chuàng)造出了“大數(shù)據(jù)標(biāo)注師”、“AI編輯”等外包崗位。

  2023年,小語(yǔ)種專(zhuān)業(yè)的阿琳,在考研期間就通過(guò)BOSS直聘等網(wǎng)站,開(kāi)始為大模型“打工”。

  通過(guò)一家叫做“X數(shù)據(jù)”的公司,阿霖為大模型圖片識(shí)別的文字內(nèi)容做驗(yàn)收,即檢驗(yàn)大模型圖片識(shí)別后的小語(yǔ)種文字是否與圖片一致。按照“一個(gè)詞或一句話(huà)算一個(gè)核算框,一個(gè)框算1毛錢(qián)”的價(jià)格,核算幾百條,阿霖一次能賺幾十元。

  到了今年,阿霖同樣通過(guò)第三方的數(shù)據(jù)公司接單,做翻譯類(lèi)的 AI 數(shù)據(jù)標(biāo)注,價(jià)格漲成了1元多一條。但要人工判斷大模型翻譯出的法語(yǔ)等小語(yǔ)種是否準(zhǔn)確,標(biāo)注員不僅要找出錯(cuò)誤之處,還要用不同的顏色,對(duì)5-6個(gè)大模型的翻譯內(nèi)容進(jìn)行標(biāo)注。“有時(shí)看一條得花10-15分鐘”。

  為AI打工之后,阿霖也發(fā)現(xiàn),這些大模型,一旦脫離了原本小語(yǔ)種的教科書(shū)語(yǔ)料庫(kù),對(duì)于社交平臺(tái)新的用詞,或者小眾人群的慣用詞,即自身的數(shù)據(jù)庫(kù)沒(méi)有收錄,大模型就開(kāi)始降智,“受限于版權(quán),學(xué)不到新的文本內(nèi)容,翻譯效果也受影響。”

  除了第三方外包公司,大廠(chǎng)也建立起了自己的數(shù)據(jù)基地。

  例如,百度的數(shù)據(jù)基地分布在如南昌、陽(yáng)泉、太原、貴州等非一線(xiàn)城市,并在這些城市完成數(shù)據(jù)標(biāo)注、方言朗讀等數(shù)據(jù)的采集,只需“招一些當(dāng)?shù)氐膶?zhuān)科生,會(huì)操作電腦就行。月工資也往往在3000-5000元之間。”美團(tuán)也早就有了自己的駐廠(chǎng)AI訓(xùn)練師。

  不過(guò),相比起舍得砸錢(qián)的大廠(chǎng),大模型四小龍們想要拿到高質(zhì)量數(shù)據(jù),難度高了不少。

  “核心的閉源高質(zhì)量數(shù)據(jù),往往都已經(jīng)被大廠(chǎng)壟斷,AI創(chuàng)業(yè)公司,甚至是AI四小龍,都可能只能拿到邊緣數(shù)據(jù)。”某大模型廠(chǎng)商的算法人員Leo告訴字母榜。

  由于高質(zhì)量數(shù)據(jù)能夠顯著提升模型效果,因此,在開(kāi)源的公開(kāi)數(shù)據(jù)數(shù)據(jù)之外,大模型廠(chǎng)商們?yōu)榱藢?shí)現(xiàn)技術(shù)迭代,需要更高質(zhì)量的數(shù)據(jù)完成訓(xùn)練。但這些數(shù)據(jù)往往被大公司把握,如國(guó)內(nèi)的新聞數(shù)據(jù)掌握在騰訊、字節(jié)等大廠(chǎng)內(nèi)部,海外則由Common Crawl、GDELT、The Pile等占據(jù)。

  在海外,即便是YouTube,也在6月底宣布,將向頂級(jí)唱片公司提供許可協(xié)議,以換取版權(quán)音樂(lè)用于訓(xùn)練。OpenAI 一直在與 Politico、《大西洋月刊》、《時(shí)代》、《金融時(shí)報(bào)》等新聞出版商達(dá)成付費(fèi)協(xié)議,使用并引用它們的新聞資料。

  當(dāng)關(guān)鍵數(shù)據(jù)主要掌握在“渠道方”內(nèi)部,比如騰訊、字節(jié)和Meta等公司,關(guān)鍵用戶(hù)數(shù)據(jù)早在移動(dòng)互聯(lián)網(wǎng)時(shí)代被瓜分完畢,要想實(shí)現(xiàn)技術(shù)突圍,AI四小龍首先就得交一筆不小的“數(shù)據(jù)費(fèi)”。

  C

  對(duì)于廠(chǎng)商們來(lái)說(shuō),行至大模型創(chuàng)業(yè)下半場(chǎng),“大數(shù)據(jù)幻覺(jué)”也是大模型集體降智、測(cè)不出9.11和9.9哪個(gè)大的原因之一。

  當(dāng)字母榜在MiniMax的海螺AI內(nèi)輸入“一個(gè)小女孩懷里抱著一只布偶貓”,耗時(shí)2分鐘,生成的6秒視頻內(nèi),小女孩抱貓咪的手指細(xì)節(jié)豐富,只是懷里抱著的,并非是一只布偶貓。

  面對(duì)生成結(jié)果,MiniMax的視頻大模型員工解釋?zhuān)?ldquo;這是因?yàn)橛糜谟?xùn)練大模型的數(shù)據(jù),在貓咪的綁定圖片里,并沒(méi)有布偶貓。”

  當(dāng)模型生成的內(nèi)容與現(xiàn)實(shí)世界事實(shí)或用戶(hù)輸入不一致,即大模型出現(xiàn)幻覺(jué),開(kāi)始“胡說(shuō)八道”。對(duì)于渴望新用戶(hù)的大模型廠(chǎng)商而言,生成效果顯然決定了產(chǎn)品是否有機(jī)會(huì)出圈。

  “輸入的指令是提取8月所有娛樂(lè)新聞,結(jié)果AI生成的是2019年8月的娛樂(lè)新聞內(nèi)容。”在使用某頭部大模型產(chǎn)品時(shí),忠實(shí)用戶(hù)孔昉已經(jīng)抓到了好幾次AI“胡言亂語(yǔ)”的瞬間,或是編纂出根本不存在的引用文獻(xiàn),或是不能理解近兩年的新概念,這讓孔昉對(duì)大模型產(chǎn)生了信任危機(jī)。

  現(xiàn)在,孔昉會(huì)同時(shí)用2-3個(gè)不同廠(chǎng)商的大模型“跑”同一個(gè)問(wèn)題,然后交叉對(duì)比,對(duì)于時(shí)間、數(shù)量、文獻(xiàn)等關(guān)鍵信息,也會(huì)通過(guò)搜索引擎二次確認(rèn),“現(xiàn)在AI生成很像抽卡,效果不可控,而且還容易智障。”孔昉無(wú)奈道。

  而高質(zhì)量數(shù)據(jù)或?qū)⒅饾u耗盡,想要解決“大模型幻覺(jué)”問(wèn)題,拿什么數(shù)據(jù)來(lái)“喂養(yǎng)”大模型,顯然頗為關(guān)鍵。

  某接近百度的人士告訴字母榜,大模型廠(chǎng)商們都會(huì)通過(guò)三方公司直接購(gòu)買(mǎi)數(shù)據(jù),省時(shí)省力但并“不省事”,就是因?yàn)橘?gòu)買(mǎi)來(lái)的數(shù)據(jù),無(wú)論是文本、錄音還是視頻,質(zhì)量都是不可控的。

  對(duì)于積極發(fā)展B端客戶(hù)的頭部大模型而言,針對(duì)某個(gè)客戶(hù),更個(gè)性化地定制大模型成為如今大廠(chǎng)AI業(yè)務(wù)主要的收入來(lái)源。但想要訓(xùn)練出這樣個(gè)性化的模型,就需要相應(yīng)高標(biāo)準(zhǔn)篩選下的數(shù)據(jù)來(lái)“喂養(yǎng)”,甚至根據(jù)不同階段大模型的學(xué)習(xí)效果,進(jìn)行數(shù)據(jù)需求的調(diào)控,“不是隨便買(mǎi)一堆語(yǔ)音來(lái),大模型就能學(xué)會(huì)的”。

  在某三方數(shù)據(jù)工作做過(guò)AI翻譯的阿霖也發(fā)現(xiàn),“作為提供數(shù)據(jù)的甲方,她所在的公司似乎并不真的關(guān)心大模型生成的語(yǔ)音質(zhì)量。”

  對(duì)于專(zhuān)攻法語(yǔ)、西班牙語(yǔ)等小語(yǔ)種的阿霖來(lái)說(shuō),她需要為甲方同時(shí)對(duì)比5-6個(gè)大模型將小語(yǔ)種語(yǔ)音翻譯成文字的生成效果,但只需要粗略得打分,對(duì)于生成的5-6份文字,到底有哪些細(xì)節(jié)的語(yǔ)言差異,能夠如何改進(jìn),三方公司并不會(huì)詢(xún)問(wèn),“漠不關(guān)心”。

  而缺乏高質(zhì)量數(shù)據(jù),或許也正是不少用戶(hù)表示“用哪家的大模型生成的內(nèi)容都差不多”的原因,也正是用戶(hù)一旦“一家大模型收費(fèi),就直接換另一家”的根因。

  對(duì)于用戶(hù)而言,宣稱(chēng)追趕OpenAI,在技術(shù)上持續(xù)迭代的國(guó)產(chǎn)大模型,或許并無(wú)實(shí)質(zhì)差異,也談不上成為忠誠(chéng)用戶(hù),這也給急著商業(yè)化的大模型廠(chǎng)商們蒙上了一層淡淡的陰影。

  因此,即便親自下場(chǎng)“為AI編劇本”費(fèi)時(shí)費(fèi)力又費(fèi)錢(qián),字節(jié)也趟出了一條新路子。而可以預(yù)見(jiàn)的是,為了解決商業(yè)化和用戶(hù)拉新的關(guān)鍵問(wèn)題,大手筆咬牙“買(mǎi)數(shù)據(jù)”,恐怕將成為大模型廠(chǎng)商們的新賽點(diǎn)。

  (文中阿霖、孔昉、張雪為化名)

  榜單收錄、高管收錄、融資收錄、活動(dòng)收錄可發(fā)送郵件至news#citmt.cn(把#換成@)。

海報(bào)生成中...

分享到微博

掃描二維碼分享到微信

分享到微信
一鍵復(fù)制
標(biāo)題鏈接已成功復(fù)制

最新新聞

熱門(mén)新聞

亚洲永久精品国产| 青苹果乐园大全在线观看| 91精品激情在线观看最新更新| (粗口,调教,高h)男男| 最近中文字幕视频高清| 性欧美xxxx极品摘花| 国产精品久久亚洲一区二区| 97精品国自产拍在线观看| 91抠逼视频| 操少妇在线视频| 原田美枝子三级大尺度电影| 糙汉和乖乖灌满精h| 饱满乳沟h揉捏| 好了av第四综合导航电影| 中文字幕av专区dvd| 啊啊啊好大好粗视频| 国产成人精品久久久一区二区三区| 乳峰高耸玉腿丰腴小说| 成人羞羞网站入口| 小雪被老汉玩各种姿势老人船| 日本囗交作爱| av色站| 久久综合久久鬼色| 蜜臀二区| 美女逼逼网站| 浮生陌小说全文免费阅读笔趣阁| 男人狂揉吃奶胸视频| 久草国产福利| 欧美69式囗交| 小sao货cao得你舒服视频| 欧美性欲视频| 欧美黄大片欧美片| 女侠淫辱调教小说| 丝袜女销售员| 日本少妇被弄高潮30分钟| 张筱雨| 美女光屁股视频网站| 日本老女人黄色片| 贵妇俱乐部欲乱h系列| china男男gaygay网站| xxxxx在线播放|