首頁 > 資訊 > 評論

英偉達：帝國裂縫一條條

2023/11/01 17:03 微信公眾號：解碼Decode 解碼工作室

　　外界常有這樣一種錯覺，因為英特爾CPU賣的好就將其歸于一家成功的硬件公司，而事實上，英特爾統(tǒng)治桌面處理器的功臣是誕生于1978年的X86架構(gòu)。

　　同樣的錯覺在英偉達身上也有。

　　英偉達之所以能夠壟斷人工智能訓練芯片市場，CUDA架構(gòu)*是幕后功臣之一。

　　這個誕生于2006年的架構(gòu)，已經(jīng)涉及計算機計算的各個領(lǐng)域，幾乎被塑造成了英偉達的形狀。航空航天、生物科學研究、機械和流體模擬及能源探索等領(lǐng)域的研究，80%在CUDA的基礎(chǔ)上進行。

　　而在最火爆的AI領(lǐng)域，幾乎所有的大廠都在準備Plan B：谷歌、亞馬遜、華為、微軟、OpenAI、百度……誰也不想讓自己的未來攥在別人手中。

　　創(chuàng)業(yè)服務(wù)咨詢機構(gòu)Dealroom.co公布過一組數(shù)據(jù)，在這波生成式AI的熱浪中，美國獲得了全球投融資的89%，而在AI芯片的投融資中，中國AI芯片投融資世界*，超過美國兩倍。

　　也就是說，盡管中美企業(yè)在大模型的發(fā)展方式和階段都存在諸多差異，但在掌控算力這件事，大家卻顯得格外一致。

　　01 為什么CUDA有這種魔力？

　　2003年，英偉達為了與推出4核CPU的英特爾競爭，開始著手發(fā)展統(tǒng)一計算設(shè)備架構(gòu)技術(shù)，也就是CUDA。

　　CUDA的初衷是為GPU增加一個易用的編程接口，讓開發(fā)者無需學習復雜的著色語言或者圖形處理原語。英偉達最初的想法是為游戲開發(fā)者提供一個圖形計算領(lǐng)域的應(yīng)用，也就是黃仁勛口中的"make graphics programmable"。

　　不過CUDA推出后一直找不到關(guān)鍵應(yīng)用，也缺少重要客戶支持。而且英偉達還要花費大筆金錢來開發(fā)應(yīng)用、維持服務(wù)并推廣與行銷，到2008年遭遇金融風暴，顯卡銷售不好的英偉達營收大跌，股價一度跌到只剩1.5美元，比AMD最慘的時候還要慘。

　　直到2012年，Hinton的兩個學生用英偉達的GPU參加了一個叫做ImageNet的圖像識別速度比賽。他們使用GTX580顯卡，利用CUDA技術(shù)進行訓練，結(jié)果算出的速度超過第二名數(shù)十倍，精確度也比第二名高10%以上。

　　讓業(yè)內(nèi)震驚的不只是ImageNet模型本身。這個需要1400萬張圖片、總計262千萬億次浮點運算訓練的神經(jīng)網(wǎng)絡(luò)，一個星期的訓練過程中僅用了四顆GTX 580。作為參考，谷歌貓用了1000萬張圖片、16000顆CPU和1000臺計算機。

　　這次比賽不僅是AI的一次歷史轉(zhuǎn)折，也為英偉達打開了突破口。英偉達開始與業(yè)界合作推動AI生態(tài)，推廣開源AI框架，并與Google、Facebook等公司合作推動TensorFlow等AI技術(shù)發(fā)展。

　　這等于完成了黃仁勛口中的第二步，"open up GPU for programmability for all kinds of things"。

　　當GPU的算力價值被發(fā)現(xiàn)后，大廠也猛然醒悟，英偉達此前數(shù)年迭代和鋪墊的CUDA，已然成為AI繞不開的一堵高墻。

　　為了籌建CUDA生態(tài)，英偉達為開發(fā)者提供了豐富的庫和工具，如cuDNN、cuBLAS和TensorRT等，方便開發(fā)者進行深度學習、線性代數(shù)和推理加速等任務(wù)。此外，英偉達還提供包括CUDA編譯器和優(yōu)化器在內(nèi)的完整開發(fā)工具鏈，使開發(fā)者能夠更方便地進行GPU編程和性能優(yōu)化。

　　與此同時英偉達也與許多流行的深度學習框架(如TensorFlow、PyTorch和MXNet)緊密合作，為CUDA提供了在深度學習任務(wù)中的顯著優(yōu)勢。

　　這種“扶上馬，送一程”的奉獻精神，使英偉達僅用了兩年半時間，就將CUDA生態(tài)的開發(fā)者數(shù)量翻了一倍。

　　這還不夠，過去十余年里英偉達將CUDA的教學課程推廣到超過350所大學，平臺內(nèi)有專業(yè)的開發(fā)者和領(lǐng)域?qū)＜�，他們通過分享經(jīng)驗和解答疑難問題，為CUDA的應(yīng)用提供了豐富的支持。

　　更關(guān)鍵的是，英偉達深知硬件作為護城河的缺陷在于沒有用戶粘性，于是將硬件與軟件捆綁，GPU渲染要用CUDA、AI降噪要用OptiX、自動駕駛計算需要CUDA……

　　盡管英偉達目前憑借GPU+NVlink+CUDA壟斷了AI算力90%的市場，但帝國的裂縫已經(jīng)不止一條了。

　　一條條裂縫

　　AI廠商苦CUDA久矣，并不是危言聳聽。

　　CUDA的神奇之處就在于它處在軟硬結(jié)合的關(guān)鍵位置，對軟件來說它是整個生態(tài)的基石，競爭對手難以繞過CUDA去兼容英偉達的生態(tài);對硬件來說，CUDA的設(shè)計基本就是英偉達硬件形態(tài)的軟件抽象，基本每個核心概念都和GPU的硬件概念相對應(yīng)。

　　那么對于競爭對手來說，就只剩兩個選擇：

　　1 繞開CUDA，重建一套軟件生態(tài)，這就要直面英偉達用戶粘性的巨大挑戰(zhàn);

　　2 兼容CUDA，但也要面臨兩個問題，一是如果你的硬件路線和英偉達不一致，那么就有可能實現(xiàn)的低效且難受，二是CUDA會跟隨英偉達硬件特性演進，兼容這也只能選擇跟隨。

　　但為了擺脫英偉達的鉗制，兩種選擇都有人嘗試。

　　2016年，AMD推出的基于開源項目的GPU生態(tài)系統(tǒng)ROCm，提供HIP工具完全兼容CUDA，就是一種跟隨路線。

　　但因為工具鏈庫資源匱乏、開發(fā)和迭代兼容性代價較大等掣肘，使ROCm生態(tài)難以壯大。在Github上,貢獻CUDA軟件包倉庫的開發(fā)者超過32600位,而 ROCm只有不到600個。

　　走兼容英偉達CUDA路線的難點在于，其更新迭代速度永遠跟不上CUDA并且很難做到完全兼容：

　　1 迭代永遠慢一步：英偉達GPU在微架構(gòu)和指令集上迭代很快，上層軟件堆棧的很多地方也要做相應(yīng)的功能更新。但AMD不可能知道英偉達的產(chǎn)品路線圖，軟件更新永遠會慢英偉達一步。例如AMD有可能剛宣布支持了CUDA11，但是英偉達已經(jīng)推出CUDA12了。

　　2 難以完全兼容反而會增加開發(fā)者的工作量：像CUDA這樣的大型軟件本身架構(gòu)很復雜，AMD需要投入大量人力物力用幾年甚至十幾年才能追趕上。因為難免存在功能差異，如果兼容做不好反而會影響性能(雖然99%相似了，但是解決剩下來的1%不同之處可能會消耗開發(fā)者99%的時間)。

　　也有公司選擇繞開CUDA，比如2022年1月成立的Modular。

　　Modular的思路是盡可能降低門檻，但更像是一種奇襲。它提出“用于提高人工智能模型性能”的AI引擎，通過“模塊化”方式解決“當前AI應(yīng)用棧常與特定硬件和軟件耦合”的問題。

　　為了配合這個AI引擎，Modular還開發(fā)了開源編程語言Mojo。你可以把它想象成一個“專為AI而生”的編程語言，Modular用它開發(fā)各種工具整合到前面提到的AI引擎里，同時又可以無縫銜接上Python，降低學習成本。

　　但Modular的問題在于，其所設(shè)想的“全平臺開發(fā)工具”太過理想化。

　　雖然頂著“超越Python”的頭銜，又有Chris Lattner名聲作為背書，但Mojo作為一種新語言，在推廣上還需要經(jīng)過眾多開發(fā)者的考驗。

　　而AI引擎要面臨的問題就更多，不僅需要與眾多硬件公司之間達成協(xié)議，還要考慮各平臺之間的兼容。這些都是需要長時間的打磨才能完成的工作，到時候的英偉達會進化成什么樣子，恐怕沒人會知道。

　　03 挑戰(zhàn)者華為

　　10月17日，美國更新了針對AI芯片的出口管制規(guī)定，阻止英偉達等公司向中國出口先進的AI芯片。根據(jù)最新的規(guī)則，英偉達包括A800和H800在內(nèi)的芯片對華出口都將受到影響。

　　此前英偉達A100及***兩款型號限制出口中國后，為中國*的“閹割版”A800和H800就是為了符合規(guī)定。英特爾同樣也針對中國市場，推出了AI芯片Gaudi2。如今看來，企業(yè)們又要在新一輪出口禁令下再進行調(diào)整應(yīng)對。

　　今年8月，搭載華為自研麒麟9000S芯片的Mate60Pro突然開售，瞬間引發(fā)了巨大輿論浪潮，使得幾乎同一時間的另外一條新聞很快被淹沒。

　　科大訊飛董事長劉慶峰在一個公開活動上罕見表態(tài)，稱華為GPU可對標英偉達A100，但前提是華為派出專門工作組在訊飛成立專班工作優(yōu)化的背景下。

　　這種突然的表態(tài)往往都有深層次的意圖，雖然沒有預(yù)知能力但其效用仍是為了應(yīng)對兩個月后的芯片禁令。

　　華為GPU，也就是昇騰AI全棧軟硬件平臺，全棧包括5層，自底向上為Atlas系列硬件、異構(gòu)計算架構(gòu)、AI框架、應(yīng)用使能、行業(yè)應(yīng)用。

　　基本上可以理解為華為針對英偉達做了一套平替，芯片層是昇騰910和昇騰310，異構(gòu)計算架構(gòu)(CANN)對標英偉達CUDA + CuDNN核心軟件層。

　　當然差距不可能沒有，有相關(guān)從業(yè)者總結(jié)了兩點：

　　1 單卡性能落后，昇騰910與A100還有差距，但勝在價格便宜可以堆量，達到集群規(guī)模后整體差距不大;

　　2 生態(tài)劣勢的確存在，但華為也在努力追趕，比如經(jīng)過PyTorch社區(qū)與昇騰的合作，PyTorch 2.1版本已同步支持昇騰NPU，意味著開發(fā)者可直接在PyTorch 2.1上基于昇騰進行模型開發(fā)。

　　目前華為昇騰主要還是運行華為自家閉環(huán)的大模型產(chǎn)品，任何公開模型都必須經(jīng)過華為的深度優(yōu)化才能在華為的平臺上運行，而這部分優(yōu)化工作嚴重依賴于華為。

　　而在當前背景下，昇騰又具有特殊的重要意義。

　　今年5月，華為昇騰計算業(yè)務(wù)總裁張迪煊就已透露，“昇騰AI”基礎(chǔ)軟硬件平臺已孵化和適配了30多個主流大模型，我國一半以上的原生大模型是基于“昇騰AI”基礎(chǔ)軟硬件平臺打造，包括鵬程系列、紫東系列、華為云盤古系列等。今年8月，百度也官宣了推進在昇騰AI上與飛槳+文心大模型的適配。

　　04 尾聲

　　在英偉達展開宏大敘事的2006年，沒有人認為CUDA會是一個革命性的產(chǎn)品，黃仁勛要苦口婆心的說服董事會每年投入5億美金，來賭一個回報期超過10年的未知，而當年英偉達的營收也不過30億美金而已。

　　但在所有以技術(shù)和創(chuàng)新作為關(guān)鍵詞的商業(yè)故事里，總有人因為對長遠目標的持久堅持而收獲巨大的成功，英偉達和華為都是其中的佼佼者。

　　榜單收錄、高管收錄、融資收錄、活動收錄可發(fā)送郵件至news#citmt.cn（把#換成@）。

海報生成中...

分享到微博分享到微信一鍵復制

標題鏈接已成功復制

免费观看已满十八岁电视剧国语_人妻色综合网站_欧美大尺寸suv视频_成人免费高清在线观看_久久久成人毛片无码_老头解开奶罩吸奶头高潮视频_sm调教室论坛入口_欧美夫妻交换久久丫1000_一级黄色大片在线免费观看了

英偉達：帝國裂縫一條條

最新新聞

熱門新聞

新動態(tài)

關(guān)注度

最話題

免费观看已满十八岁电视剧国语_人妻 色综合网站_欧美大尺寸suv视频_成人免费高清在线观看_久久久成人毛片无码_老头解开奶罩吸奶头高潮视频_sm调教室论坛入口_欧美夫妻交换久久丫1000_一级黄色大片在线免费观看了

英偉達：帝國裂縫一條條

相關(guān)閱讀

最新新聞

熱門新聞

新動態(tài)

關(guān)注度

最話題

免费观看已满十八岁电视剧国语_人妻色综合网站_欧美大尺寸suv视频_成人免费高清在线观看_久久久成人毛片无码_老头解开奶罩吸奶头高潮视频_sm调教室论坛入口_欧美夫妻交换久久丫1000_一级黄色大片在线免费观看了