亞馬遜創(chuàng)始人投資Jim Keller，劍指英偉達

2024/12/04 11:18 微信公眾號：半導體行業(yè)觀察編輯部

　　近日，由行業(yè)知名人士Jim Keller擔任CEO的Tenstorrent宣布完成由三星證券和 AFW Partners 領投的 6.93 億美元 D 輪融資。在這輪融資之后，這家 AI 芯片初創(chuàng)公司的估值約為 26 億美元。

　　Tenstorrent 創(chuàng)始人兼半導體先驅 Jim Keller 在接受采訪時表示，該公司希望開發(fā)一款芯片，試圖打破 Nvidia 對 AI 業(yè)務的壟斷，該公司在由韓國 AFW Partners 和三星證券領投的一輪融資中籌集了資金。Bezos Expeditions 與 LG Electronics Inc. 和 Fidelity 聯(lián)手參與了這輪融資，看好 Keller 的實力和人工智能技術領域的蓬勃發(fā)展機會。

　　值得一提的是，Bezos Expeditions的實控人為亞馬遜創(chuàng)始人Jeff Bezos�？紤]到AWS對英偉達芯片的采購量，可以看到這個投資背后的深層次含義。

　　除了領投方之外，許多知名投資者也參與了此輪融資，其中包括 XTX Markets、Corner Capital、MESH、加拿大出口發(fā)展局、安大略省醫(yī)療養(yǎng)老金計劃、LG 電子、現(xiàn)代汽車集團、富達管理與研究公司、Baillie Gifford、Bezos Expeditions 等。

　　Tenstorrent方面表示，由于投資者需求強勁，該輪融資獲得超額認購。Jim Keller 在接受采訪時更是表示，該公司希望開發(fā)一款芯片，試圖打破 Nvidia 對 AI 業(yè)務的壟斷。

　　Tenstorrent是誰？

　　關于誰是Jim Keller，媒體已經(jīng)做了很多報道，我們就不再多言。參考半導體行業(yè)觀察之前發(fā)布的文章《Jim Keller的芯片研發(fā)封神之路》可以看到其光輝的履歷。至于Tenstorrent，則是一家由Jim Keller支持并擔任CEO的公司。

　　Tenstorrent 總部位于加利福尼亞州圣克拉拉，主要開發(fā)和銷售專為 AI 工作負載而設計的計算系統(tǒng)，這些系統(tǒng)均圍繞該公司的 Tensix 核心開發(fā)。該公司的愿景是打破 Nvidia 在芯片硅片市場的壟斷，設計出更實惠的 AI 訓練和部署硬件，避免使用 Nvidia 使用的高帶寬內存等昂貴組件。

　　“如果你使用 HBM，你就無法擊敗 Nvidia，因為 Nvidia 購買的 HBM 最多，而且具有成本優(yōu)勢，”Jim Keller在接受彭博社采訪時候說。“但他們永遠無法像 HBM 內置到他們的產品和插槽中那樣降低價格。”

　　眾所周知，Nvidia 為開發(fā)人員提供了全套專有技術，涵蓋從芯片到互連甚至數(shù)據(jù)中心布局的方方面面，并承諾所有部件都能更好地工作，因為它們是協(xié)同設計的。而競爭對手 AMD和 Tenstorrent 等公司則致力于與其他技術提供商實現(xiàn)更大的互操作性，無論是通過共享行業(yè)標準還是開放設計供他人使用。

　　為了吸引更多潛在客戶，該公司專注于與其他供應商進行可互操作的硬件設計。它使用開放標準的RISC-V 處理器架構，旨在為工程師和開發(fā)人員提供一個更開放的生態(tài)系統(tǒng)，以便將其處理器和系統(tǒng)應用于他們的數(shù)據(jù)中心和服務器設置。“過去，我使用專有技術，這真的很艱難，”Jim Keller 說。“開源可以幫助你構建更大的平臺。它吸引了工程師。是的，這是一個充滿激情的項目。”

　　為了實現(xiàn)這一目標，Tenstorrent將 AI 和 RISC-V 知識產權授權給想要擁有和定制專用芯片的客戶。RISC-V 是一種開源指令架構，用于基于所謂的“精簡指令集”為不同應用開發(fā)定制處理器，這使得它非常易于使用、定制和優(yōu)化功率、性能和功能。

　　與 RISC-V 和日本合作伙伴 Rapidus一樣，Tenstorrent 仍有很多需要證明的地方。迄今為止，這家新興公司已與客戶簽訂了總額近 1.5 億美元的合同，與 Nvidia 每季度數(shù)百億美元的數(shù)據(jù)中心收入相比，這相形見絀。

　　該公司表示，將利用新資金構建開源 AI 軟件堆棧，并聘請開發(fā)人員來擴大全球開發(fā)和設計中心。這將使該公司能夠構建系統(tǒng)和云，供 AI 開發(fā)人員在其系統(tǒng)上使用和測試模型。

　　Tenstorrent 表示，其首批芯片由 GlobalFoundries制造，下一代芯片將來自臺灣半導體制造公司和三星電子公司。該公司還開始為尖端的 2 納米制造進行設計。臺積電和三星將于明年開始大規(guī)模生產，Tenstorrent 正在與他們以及日本的 Rapidus 進行談判，后者的目標是在 2027 年實現(xiàn) 2 納米產量。

　　XTX Markets 首席技術官 Joshua Leahy 表示：“我們發(fā)現(xiàn) Tenstorrent 的開源驅動方法令人耳目一新，尤其是在專有且通常保密的 AI 加速器領域。”

　　隨著公司開始利用新資金擴大規(guī)模，它將在 Nvidia 占據(jù)優(yōu)勢的市場中面臨阻力。然而，Jim Keller 仍然相信，通過提供更實惠、可以根據(jù)業(yè)務需求量身定制的 AI 芯片，并每兩年發(fā)布一款新處理器，可以幫助該公司在 AI 芯片行業(yè)保持商業(yè)上可行的產品。

　　在接受媒體采訪的時候，Jim Keller曾總結說：

　　Tenstorrent 是一家設計公司。我們設計CPU，我們設計人工智能引擎，我們設計人工智能軟件堆棧。

　　因此，無論是軟 IP、硬 IP chiplet還是完整芯片，這些都是實現(xiàn)。我們在這方面很靈活。例如，在 CPU 上，我們將在我們自己的chiplet流片之前對其進行多次許可。我們正在與六家想要從事定制內存芯片或 NPU 加速器等業(yè)務的公司進行交談。我認為對于我們的下一代，無論是 CPU 還是 AI，我們將構建 CPU 和 AI chiplet。但隨后其他人會做其他的小芯片。然后我們會將它們整合到系統(tǒng)中。

　　憑啥挑戰(zhàn)英偉達？

　　從上面的介紹中，我們分享了Tenstorrent的愿景。接下來，我們了解一下這家公司的產品和路線圖。

　　在2023年三月，Tenstorrent 的首席 CPU 架構師 Wei-Han Lien 在接受媒體采訪的時候就表示，由于 Tenstorrent 著眼于解決廣泛的 AI 應用問題，因此它不僅需要不同的片上系統(tǒng)或系統(tǒng)級封裝，還需要各種 CPU 微架構實現(xiàn)和系統(tǒng)級架構，以實現(xiàn)不同的功率和性能目標。

　　Tenstorrent 表示，公司的CPU 團隊開發(fā)了一種無序 RISC-V 微架構，并以五種不同的方式實現(xiàn)它，以滿足各種應用的需求。

　　Tenstorrent 現(xiàn)在有五種不同的 RISC-V CPU 核心 IP，包括雙寬、三寬、四寬、六寬和八寬解碼，可用于自己的處理器或授權給感興趣的各方。對于那些需要非�；镜� CPU 的潛在客戶，該公司可以提供具有雙寬執(zhí)行能力的小核心，但對于那些需要更高性能用于邊緣、客戶端 PC 和高性能計算的客戶，它有六寬 Alastor 和八寬 Ascalon 核心。

　　每個具有八寬解碼的無序 Ascalon ( RV64ACDHFMV ) 核心都有六個 ALU、兩個 FPU 和兩個 256 位矢量單元，因此非常強大。考慮到現(xiàn)代 x86 設計使用四寬 (Zen 4) 或六寬 (Golden Cove) 解碼器，我們看到的是一個功能非常強大的核心。

　　除了各種 RISC-V 通用核心外，Tenstorrent 還擁有專為神經(jīng)網(wǎng)絡推理和訓練量身定制的專有 Tensix 核心。每個 Tensix 核心由五個 RISC 核心、一個用于張量運算的數(shù)組數(shù)學單元、一個用于矢量運算的 SIMD 單元、1MB 或 2MB 的 SRAM 以及用于加速網(wǎng)絡數(shù)據(jù)包操作和壓縮/解壓縮的固定功能硬件組成。Tensix 核心支持多種數(shù)據(jù)格式，包括 BF4、BF8、INT8、FP16、BF16 甚至 FP64。

　　截止2023年三月，Tenstorrent 有兩種產品：一種名為 Grayskull 的機器學習處理器，提供約 315 INT8 TOPS 的性能，可插入 PCIe Gen4 插槽;另一種是聯(lián)網(wǎng)的 Wormhole ML 處理器，性能約為 350 INT8 TOPS，使用 GDDR6 內存子系統(tǒng)、PCIe Gen4 x16 接口，并與其他機器建立 400GbE 連接。

　　這兩種設備都需要主機 CPU，可作為附加板使用，也可內置于預置的 Tenstorrent 服務器中。一臺 4U Nebula 服務器包含 32 張 Wormhole ML 卡，可提供約 12 個 INT8 POPS 的性能，功率為 6kW。

　　在今年八月舉辦的 Hot Chips 上，Tenstorrent披露了Blackhole AI 加速器進行。與之前作為基于 PCIe 的加速器部署的 Greyskull 和 Wormhole 部件不同，Tenstorrent 的 Blackhole旨在作為獨立的 AI 計算機運行。

　　他們聲稱，該加速器在原始計算和可擴展性方面可以勝過 Nvidia A100。據(jù)介紹，每個 Blackhole 芯片都擁有 745 teraFLOPS 的 FP8 性能(FP16 為 372 teraFLOPS)、32GB 的 GDDR6 內存和基于以太網(wǎng)的互連，能夠在其 10 個 400Gbps 鏈路上實現(xiàn) 1TBps 的總帶寬。

　　Tenstorrent 展示了其最新芯片如何在性能上比 Nvidia A100 GPU 略有優(yōu)勢，盡管在內存容量和帶寬方面都落后。然而，就像 A100 一樣，Tenstorrent 的 Blackhole 旨在作為橫向擴展系統(tǒng)的一部分進行部署。這家 AI 芯片初創(chuàng)公司計劃將 32 個 Blackhole 加速器以 4x8 網(wǎng)格的形式連接起來，塞進一個節(jié)點，并將其稱為 Blackhole Galaxy。

　　總體而言，單個 Blackhole Galaxy 承諾 FP8 的 23.8 petaFLOPS 或 FP16 的 11.9 petaFLOPS，以及能夠提供 16 TBps 原始帶寬的 1TB 內存。此外，Tenstorrent 表示，該芯片的核心密集型架構(我們稍后會深入探討)意味著這些系統(tǒng)中的每一個都可以用作計算或內存節(jié)點，或用作高帶寬 11.2TBps 的 AI 交換機。

　　Tenstorrent 人工智能軟件和架構高級研究員 Davor Capalija 表示：“你可以用它作為樂高積木來搭建整個訓練集群。”

　　值得一提的是。Tenstorrent 使用板載以太網(wǎng)，這意味著它避免了在芯片到芯片和節(jié)點到節(jié)點網(wǎng)絡中處理多種互連技術所帶來的挑戰(zhàn)，而 Nvidia 則必須使用 NVLink 和 InfiniBand/以太網(wǎng)。在這方面，Tenstorrent 的橫向擴展策略與英特爾的Gaudi 平臺非常相似，后者也使用以太網(wǎng)作為其主要互連�？紤]到 Tenstorrent 計劃在一個盒子里塞入多少個 Blackhole 加速器，更不用說一個訓練集群，看看它們如何處理硬件故障將會很有趣。

　　Tenstorrent 表示，Blackhole之所以能作為獨立的 AI 計算機運行，主要歸功于 16 個“Big RISC-V”64 位、雙發(fā)射、有序 CPU 核心，這些核心排列在四個集群中。至關重要的是，這些核心足夠強大，可以作為運行 Linux 的設備主機。這些 CPU 核心與 752 個“Baby RISC-V”核心配對，后者負責內存管理、片外通信和數(shù)據(jù)處理。

　　然而，實際計算是由 Tenstorrent 的 140 個 Tensix 核心處理的，每個核心由五個“Baby RISC-V”核心、一對路由器、一個計算綜合體和一些 L1 緩存組成。

　　計算綜合體由一個用于加速矩陣工作負載的圖塊數(shù)學引擎和一個矢量數(shù)學引擎組成。前者將支持 Int8、TF32、BF/FP16、FP8 以及 2 到 8 位的塊浮點數(shù)據(jù)類型，而矢量引擎則以 FP32、Int16 和 Int32 為目標。

　　據(jù)他們所說，這種配置意味著該芯片可以支持 AI 和 HPC 應用中的各種常見數(shù)據(jù)模式，包括矩陣乘法、卷積和分片數(shù)據(jù)布局。

　　總體而言，Blackhole 的 Tensix 核心占了 752 個所謂的板載 RISC-V 核心中的 700 個。其余核心負責內存管理(“D”代表 DRAM)、片外通信(“E”代表以太網(wǎng))、系統(tǒng)管理(“A”)和 PCIe(“P”)。

　　除了新芯片之外，Tenstorrent 還公開了其加速器的 TT-Metalium 低級編程模型。

　　熟悉 Nvidia CUDA 平臺的人都知道，軟件可以成就或毀掉性能最高的硬件。事實上，TT-Metalium 有點讓人聯(lián)想到 CUDA 或 OpenCL 等 GPU 編程模型，因為它是異構的，但不同之處在于它是從“AI 和橫向擴展”計算開始構建的，Capalija 解釋道。

　　其中一個區(qū)別是內核本身是帶有 API 的純 C++。“我們認為不需要特殊的內核語言，”他解釋道。

　　結合 TT-NN、TT-MLIR 和 TT-Forge 等其他軟件庫，Tenstorrent 旨在支持使用 PyTorch、ONNX、JAX、TensorFlow 和 vLLM 等常用運行時在其加速器上運行任何 AI 模型。

　　寫在最后

　　替代英偉達是很多人的想法，但替代英偉達似乎是任何一個人都很難達成的目標。例如，大家都知道，英偉達能穩(wěn)坐釣魚臺，除了得益于其*的硬件外，包括CUDA在內的軟件實力，是他們能壟斷至今的根本。

　　但Jim Keller曾表示：“CUDA并不是護城河，而是沼澤。”他同時認為，GPU并不是運行人工智能的全部。

　　“我希望可以幫助客戶構建自己的產品，這是一件很酷的事情，您可以擁有并控制它，而不用向其他人支付 60% 或 80% 的毛利率。因此，當人們告訴我們 Nvidia 已經(jīng)贏了，并問為什么 Tenstorrent 會參與競爭時，那是因為只要存在利潤率極高的壟斷，就會創(chuàng)造商機。”Jim Keller說。

　　在筆者看來，亞馬遜后續(xù)會如何與英偉達battle，也會是一個有意思的話題。

　　榜單收錄、高管收錄、融資收錄、活動收錄可發(fā)送郵件至news#citmt.cn（把#換成@）。

海報生成中...

分享到微博分享到微信一鍵復制

標題鏈接已成功復制

免费观看已满十八岁电视剧国语_人妻色综合网站_欧美大尺寸suv视频_成人免费高清在线观看_久久久成人毛片无码_老头解开奶罩吸奶头高潮视频_sm调教室论坛入口_欧美夫妻交换久久丫1000_一级黄色大片在线免费观看了

亞馬遜創(chuàng)始人投資Jim Keller，劍指英偉達

最新新聞

熱門新聞

新動態(tài)

關注度

最話題

免费观看已满十八岁电视剧国语_人妻 色综合网站_欧美大尺寸suv视频_成人免费高清在线观看_久久久成人毛片无码_老头解开奶罩吸奶头高潮视频_sm调教室论坛入口_欧美夫妻交换久久丫1000_一级黄色大片在线免费观看了

亞馬遜創(chuàng)始人投資Jim Keller，劍指英偉達

相關閱讀

最新新聞

熱門新聞

新動態(tài)

關注度

最話題

免费观看已满十八岁电视剧国语_人妻色综合网站_欧美大尺寸suv视频_成人免费高清在线观看_久久久成人毛片无码_老头解开奶罩吸奶头高潮视频_sm调教室论坛入口_欧美夫妻交换久久丫1000_一级黄色大片在线免费观看了