首頁 > 科技

特斯拉D1晶片遭實名diss:記憶體到封裝都成問題

2021-09-04 03:02:57

明敏 發自 凹非寺量子位 報道 | 公眾號 QbitAI

在今年特斯拉AI開放日上,D1晶片風光無限。

獨特的晶圓封裝系統+晶片設計,讓D1在訓練萬億參數級神經網路時,可以擁有數量級優勢

特斯拉更在釋出會上表示,它在效能上已經完全碾壓英偉達GPU和谷歌TPU。

不過,顛覆性的設計能夠帶來關注,也會遭到質疑。

最近,半導體分析網站SemiAnalysis就表示:

D1晶片存在一些重大技術問題

記憶體、成本上都有疑問

作為特斯拉首款AI訓練晶片,D1晶片採用分散式結構和7nm工藝,搭載500億個電晶體、354個訓練節點,實現了超高算力和超高頻寬。

根據特斯拉已經透露的資訊,SemiAnalysis從以下幾個方面提出了質疑:

首先是記憶體問題

SemiAnalysis認為,D1晶片無論在功能單元層面還是系統層面,想要達到他們所說的算力,記憶體可能都不夠

功能單元層面,D1晶片的單個功能單元具有1.25MB SRAM快取、1TFlop的FP16/CFP8精度計算能力。

在晶片層面,裸片上沒有其他SRAM結構,只有354個單元的1.25MB SRAM來支撐。

基於設計相似的IPU,SemiAnalysis推測這種設計會導致嚴重的記憶體缺陷,從而影響晶片的算力。

事實上,每個IPU晶片上SRAM的數量還是D1的兩倍,但它在效能上和英偉達A100比起來,劣勢依舊非常明顯。

在BERT和ResNet50訓練中,英偉達A100的速度分別是IPU的1.54倍和1.43倍。

其次,就是在成本問題上。

特斯拉D1晶片之間可以實現無縫融合,這使它能夠達到8 TB/s的IO,比ASIC和英偉達高出一個數量級。

為了滿足這樣大的IO,特斯拉採用了獨特的封裝方式,即InFO_SoW

這種封裝方式的特點就是可以夠

在釋出會上,它們也展示了由25個D1晶片組成的訓練模組。

但這種封裝方式在實際生產中的難度很高,出現報廢的情況會更多,由此也會導致成本突增。

除了這兩方面,SemiAnalysis認為D1還有很多未解決的問題。

比如,在釋出會現場被問到軟體方面的問題時,特斯拉工程師甚至回答他們完全沒有準備。

SRAM方面的問題也亟需解決,否則將會面臨運行速度過快的風險。

以上種種,都導致特斯拉的開發人員需要對系統進行大量的優化。

此外特斯拉透露,目前他們已經部署的D1晶片只有3000個。

如此看來,D1晶片的攤銷成本也是非常高了。

D1真的在神壇之上嗎?

事實上,在特斯拉AI開放日的第二天,它的股價上漲甚至還不如英偉達。

可見投資界對於馬斯克帶來的新技術,也都非常冷靜。

有人表示,特斯拉把技術封鎖在自己的堡壘內,外界無法測評,也就無從得知它真正的優勢和侷限性。

這一次向特斯拉開懟的是SemiAnalysis,它是一家半導體分析評論網站,首席分析師為Dylan Patel,畢業於佐治亞大學特里商學院。

參考連結:[1]https://semianalysis.com/the-tesla-dojo-chip-is-impressive-but-there-are-some-major-technical-issues/[2]https://news.ycombinator.com/item?id=28361807[3]https://www.linkedin.com/in/dylanpatelsa/


IT145.com E-mail:sddin#qq.com