免费观看已满十八岁电视剧国语_人妻 色综合网站_欧美大尺寸suv视频_成人免费高清在线观看_久久久成人毛片无码_老头解开奶罩吸奶头高潮视频_sm调教室论坛入口_欧美夫妻交换久久丫1000_一级黄色大片在线免费观看了

首頁 > 資訊 > 評論

英偉達:帝國裂縫一條條

2023/11/01 17:03      微信公眾號:解碼Decode 解碼工作室


  外界常有這樣一種錯覺,因為英特爾CPU賣的好就將其歸于一家成功的硬件公司,而事實上,英特爾統(tǒng)治桌面處理器的功臣是誕生于1978年的X86架構(gòu)。

  同樣的錯覺在英偉達身上也有。

  英偉達之所以能夠壟斷人工智能訓練芯片市場,CUDA架構(gòu)*是幕后功臣之一。

  這個誕生于2006年的架構(gòu),已經(jīng)涉及計算機計算的各個領(lǐng)域,幾乎被塑造成了英偉達的形狀。航空航天、生物科學研究、機械和流體模擬及能源探索等領(lǐng)域的研究,80%在CUDA的基礎(chǔ)上進行。

  而在最火爆的AI領(lǐng)域,幾乎所有的大廠都在準備Plan B:谷歌、亞馬遜、華為、微軟、OpenAI、百度……誰也不想讓自己的未來攥在別人手中。

  創(chuàng)業(yè)服務(wù)咨詢機構(gòu)Dealroom.co公布過一組數(shù)據(jù),在這波生成式AI的熱浪中,美國獲得了全球投融資的89%,而在AI芯片的投融資中,中國AI芯片投融資世界*,超過美國兩倍。

  也就是說,盡管中 美企業(yè)在大模型的發(fā)展方式和階段都存在諸多差異,但在掌控算力這件事,大家卻顯得格外一致。

  01 為什么CUDA有這種魔力?

  2003年,英偉達為了與推出4核CPU的英特爾競爭,開始著手發(fā)展統(tǒng)一計算設(shè)備架構(gòu)技術(shù),也就是CUDA。

  CUDA的初衷是為GPU增加一個易用的編程接口,讓開發(fā)者無需學習復雜的著色語言或者圖形處理原語。英偉達最初的想法是為游戲開發(fā)者提供一個圖形計算領(lǐng)域的應(yīng)用,也就是黃仁勛口中的"make graphics programmable"。

  不過CUDA推出后一直找不到關(guān)鍵應(yīng)用,也缺少重要客戶支持。而且英偉達還要花費大筆金錢來開發(fā)應(yīng)用、維持服務(wù)并推廣與行銷,到2008年遭遇金融風暴,顯卡銷售不好的英偉達營收大跌,股價一度跌到只剩1.5美元,比AMD最慘的時候還要慘。

  直到2012年,Hinton的兩個學生用英偉達的GPU參加了一個叫做ImageNet的圖像識別速度比賽。他們使用GTX580顯卡,利用CUDA技術(shù)進行訓練,結(jié)果算出的速度超過第二名數(shù)十倍,精確度也比第二名高10%以上。

  讓業(yè)內(nèi)震驚的不只是ImageNet模型本身。這個需要1400萬張圖片、總計262千萬億次浮點運算訓練的神經(jīng)網(wǎng)絡(luò),一個星期的訓練過程中僅用了四顆GTX 580。作為參考,谷歌貓用了1000萬張圖片、16000顆CPU和1000臺計算機。

  這次比賽不僅是AI的一次歷史轉(zhuǎn)折,也為英偉達打開了突破口。英偉達開始與業(yè)界合作推動AI生態(tài),推廣開源AI框架,并與Google、Facebook等公司合作推動TensorFlow等AI技術(shù)發(fā)展。

  這等于完成了黃仁勛口中的第二步,"open up GPU for programmability for all kinds of things"。

  當GPU的算力價值被發(fā)現(xiàn)后,大廠也猛然醒悟,英偉達此前數(shù)年迭代和鋪墊的CUDA,已然成為AI繞不開的一堵高墻。

  為了籌建CUDA生態(tài),英偉達為開發(fā)者提供了豐富的庫和工具,如cuDNN、cuBLAS和TensorRT等,方便開發(fā)者進行深度學習、線性代數(shù)和推理加速等任務(wù)。此外,英偉達還提供包括CUDA編譯器和優(yōu)化器在內(nèi)的完整開發(fā)工具鏈,使開發(fā)者能夠更方便地進行GPU編程和性能優(yōu)化。

  與此同時英偉達也與許多流行的深度學習框架(如TensorFlow、PyTorch和MXNet)緊密合作,為CUDA提供了在深度學習任務(wù)中的顯著優(yōu)勢。

  這種“扶上馬,送一程”的奉獻精神,使英偉達僅用了兩年半時間,就將CUDA生態(tài)的開發(fā)者數(shù)量翻了一倍。

  這還不夠,過去十余年里英偉達將CUDA的教學課程推廣到超過350所大學,平臺內(nèi)有專業(yè)的開發(fā)者和領(lǐng)域?qū)<�,他們通過分享經(jīng)驗和解答疑難問題,為CUDA的應(yīng)用提供了豐富的支持。

  更關(guān)鍵的是,英偉達深知硬件作為護城河的缺陷在于沒有用戶粘性,于是將硬件與軟件捆綁,GPU渲染要用CUDA、AI降噪要用OptiX、自動駕駛計算需要CUDA……

  盡管英偉達目前憑借GPU+NVlink+CUDA壟斷了AI算力90%的市場,但帝國的裂縫已經(jīng)不止一條了。

  一條條裂縫

  AI廠商苦CUDA久矣,并不是危言聳聽。

  CUDA的神奇之處就在于它處在軟硬結(jié)合的關(guān)鍵位置,對軟件來說它是整個生態(tài)的基石,競爭對手難以繞過CUDA去兼容英偉達的生態(tài);對硬件來說,CUDA的設(shè)計基本就是英偉達硬件形態(tài)的軟件抽象,基本每個核心概念都和GPU的硬件概念相對應(yīng)。

  那么對于競爭對手來說,就只剩兩個選擇:

  1 繞開CUDA,重建一套軟件生態(tài),這就要直面英偉達用戶粘性的巨大挑戰(zhàn);

  2 兼容CUDA,但也要面臨兩個問題,一是如果你的硬件路線和英偉達不一致,那么就有可能實現(xiàn)的低效且難受,二是CUDA會跟隨英偉達硬件特性演進,兼容這也只能選擇跟隨。

  但為了擺脫英偉達的鉗制,兩種選擇都有人嘗試。

  2016年,AMD推出的基于開源項目的GPU生態(tài)系統(tǒng)ROCm,提供HIP工具完全兼容CUDA,就是一種跟隨路線。

  但因為工具鏈庫資源匱乏、開發(fā)和迭代兼容性代價較大等掣肘,使ROCm生態(tài)難以壯大。在Github上,貢獻CUDA軟件包倉庫的開發(fā)者超過32600位,而 ROCm只有不到600個。

  走兼容英偉達CUDA路線的難點在于,其更新迭代速度永遠跟不上CUDA并且很難做到完全兼容:

  1 迭代永遠慢一步:英偉達GPU在微架構(gòu)和指令集上迭代很快,上層軟件堆棧的很多地方也要做相應(yīng)的功能更新。但AMD不可能知道英偉達的產(chǎn)品路線圖,軟件更新永遠會慢英偉達一步。例如AMD有可能剛宣布支持了CUDA11,但是英偉達已經(jīng)推出CUDA12了。

  2 難以完全兼容反而會增加開發(fā)者的工作量:像CUDA這樣的大型軟件本身架構(gòu)很復雜,AMD需要投入大量人力物力用幾年甚至十幾年才能追趕上。因為難免存在功能差異,如果兼容做不好反而會影響性能(雖然99%相似了,但是解決剩下來的1%不同之處可能會消耗開發(fā)者99%的時間)。

  也有公司選擇繞開CUDA,比如2022年1月成立的Modular。

  Modular的思路是盡可能降低門檻,但更像是一種奇襲。它提出“用于提高人工智能模型性能”的AI引擎,通過“模塊化”方式解決“當前AI應(yīng)用棧常與特定硬件和軟件耦合”的問題。

  為了配合這個AI引擎,Modular還開發(fā)了開源編程語言Mojo。你可以把它想象成一個“專為AI而生”的編程語言,Modular用它開發(fā)各種工具整合到前面提到的AI引擎里,同時又可以無縫銜接上Python,降低學習成本。

  但Modular的問題在于,其所設(shè)想的“全平臺開發(fā)工具”太過理想化。

  雖然頂著“超越Python”的頭銜,又有Chris Lattner名聲作為背書,但Mojo作為一種新語言,在推廣上還需要經(jīng)過眾多開發(fā)者的考驗。

  而AI引擎要面臨的問題就更多,不僅需要與眾多硬件公司之間達成協(xié)議,還要考慮各平臺之間的兼容。這些都是需要長時間的打磨才能完成的工作,到時候的英偉達會進化成什么樣子,恐怕沒人會知道。

  03 挑戰(zhàn)者華為

  10月17日,美國更新了針對AI芯片的出口管制規(guī)定,阻止英偉達等公司向中國出口先進的AI芯片。根據(jù)最新的規(guī)則,英偉達包括A800和H800在內(nèi)的芯片對華出口都將受到影響。

  此前英偉達A100及***兩款型號限制出口中國后,為中國*的“閹割版”A800和H800就是為了符合規(guī)定。英特爾同樣也針對中國市場,推出了AI芯片Gaudi2。如今看來,企業(yè)們又要在新一輪出口禁令下再進行調(diào)整應(yīng)對。

  今年8月,搭載華為自研麒麟9000S芯片的Mate60Pro突然開售,瞬間引發(fā)了巨大輿論浪潮,使得幾乎同一時間的另外一條新聞很快被淹沒。

  科大訊飛董事長劉慶峰在一個公開活動上罕見表態(tài),稱華為GPU可對標英偉達A100,但前提是華為派出專門工作組在訊飛成立專班工作優(yōu)化的背景下。

  這種突然的表態(tài)往往都有深層次的意圖,雖然沒有預(yù)知能力但其效用仍是為了應(yīng)對兩個月后的芯片禁令。

  華為GPU,也就是昇騰AI全棧軟硬件平臺,全棧包括5層,自底向上為Atlas系列硬件、異構(gòu)計算架構(gòu)、AI框架、應(yīng)用使能、行業(yè)應(yīng)用。

  基本上可以理解為華為針對英偉達做了一套平替,芯片層是昇騰910和昇騰310,異構(gòu)計算架構(gòu)(CANN)對標英偉達CUDA + CuDNN核心軟件層。

  當然差距不可能沒有,有相關(guān)從業(yè)者總結(jié)了兩點:

  1 單卡性能落后,昇騰910與A100還有差距,但勝在價格便宜可以堆量,達到集群規(guī)模后整體差距不大;

  2 生態(tài)劣勢的確存在,但華為也在努力追趕,比如經(jīng)過PyTorch社區(qū)與昇騰的合作,PyTorch 2.1版本已同步支持昇騰NPU,意味著開發(fā)者可直接在PyTorch 2.1上基于昇騰進行模型開發(fā)。

  目前華為昇騰主要還是運行華為自家閉環(huán)的大模型產(chǎn)品,任何公開模型都必須經(jīng)過華為的深度優(yōu)化才能在華為的平臺上運行,而這部分優(yōu)化工作嚴重依賴于華為。

  而在當前背景下,昇騰又具有特殊的重要意義。

  今年5月,華為昇騰計算業(yè)務(wù)總裁張迪煊就已透露,“昇騰AI”基礎(chǔ)軟硬件平臺已孵化和適配了30多個主流大模型,我國一半以上的原生大模型是基于“昇騰AI”基礎(chǔ)軟硬件平臺打造,包括鵬程系列、紫東系列、華為云盤古系列等。今年8月,百度也官宣了推進在昇騰AI上與飛槳+文心大模型的適配。

  04 尾聲

  在英偉達展開宏大敘事的2006年,沒有人認為CUDA會是一個革命性的產(chǎn)品,黃仁勛要苦口婆心的說服董事會每年投入5億美金,來賭一個回報期超過10年的未知,而當年英偉達的營收也不過30億美金而已。

  但在所有以技術(shù)和創(chuàng)新作為關(guān)鍵詞的商業(yè)故事里,總有人因為對長遠目標的持久堅持而收獲巨大的成功,英偉達和華為都是其中的佼佼者。

  榜單收錄、高管收錄、融資收錄、活動收錄可發(fā)送郵件至news#citmt.cn(把#換成@)。

海報生成中...

分享到微博

掃描二維碼分享到微信

分享到微信
一鍵復制
標題鏈接已成功復制

最新新聞

熱門新聞

日本护士后进式猛烈动态图片| 林黛玉的双乳被主人摸来揉去| 成人黄色国产| 人人澡超碰碰97碰碰碰| 女人18毛片60分钟| 男女猛烈无遮挡免费视频| 多人调教强行破苞h驯服| 精品国产一二三区| 欧美日韩一区二区在线观看| 狂猛欧美激情性xxxx在线观看| 黄色片三级视频| 日本中文字幕在线观看| 我要操av| 高跟丝袜韩国三级| 受双性快穿性瘾1v1高h| sp狠打调教女贝光屁股视频| 男人添女人囗交做爰裸体网站| 茄子视频成人在线观看| 美女隐私打扑克视频软件| 双性h调教打肿私密跪撅灌尿| 亚洲va韩国va欧美va精四季| 在线看h片| 国产极品美女高潮无套久久久| 美女天堂| 性明星video另类hd| 噜噜久久影院| 被调教成sao货男男教官| 一卡二卡三卡在线观看| 慧芳又被局长给肉了01章小说| 深夜国产精品| 被粗汉h玩松了尿进去np漫画| 免费成人av片| 丁香花免费高清视频全集完整版| 我们的2018免费观看大全最新一期| 撅高调教闺房h| 欧美freesex交免费视频| 小白花的淫欲情史(男出轨 高h)| 久久久久女人| 久久蜜桃精品| 精品亚洲成a人片在线观看少妇| 91丨porny丨国产入口|