24人團隊挑戰英偉達?Taalas HC1橫空出世:將大模型直接“刻”進硬件
發布時間:2026-02-25 來源:轉載 責任編輯:lily
【導讀】由前AMD集成電路總監、Tenstorrent創始人柳比薩·巴吉克(Ljubisa Bajic)領銜,Taalas於2026年2月正式浮出水麵,宣布完成超2億美元融資並推出首款將模型權重直接固化於硬件的HC1平台。這款僅由24人團隊耗時兩年打造的芯片,宣稱能將Meta Llama 3.1 8B模型的推理速度提升至每秒17000個token,成本僅為傳統GPU方案的幾十分之一,甚至有望讓大模型推理進入“亞毫秒級”時代。

一夜之間,Taalas的產品刷屏矽穀,社交平台網友紛紛開啟實測,並稱其性能驚人、將給英偉達GPU帶來巨大挑戰。HC1采用台積電6nm製程,芯片麵積與英偉達H100芯片相當,為815平方毫米。HC1芯片可以將整個8B版本的Llama 3.1模型集成到單顆芯片上。Taalas還模擬了DeepSeek R1-671B的多芯片解決方案,其存儲整個671B模型采用了大約30顆定製芯片,模擬結果表明,DeepSeek R1-671B每用戶每秒可生成約12000個token;Llama 3.1單個用戶的生成速度可達17000 token/秒,速度接近Cerebras推理平台的10倍,英偉達H200的73倍、B200的48倍,構建成本為Cerebras現有方案的1/20、功耗僅為1/10。
Taalas創始人兼CEO柳比薩·巴吉克(Ljubisa Bajic)曾任職AMD集成電路設計與架構總監、英偉達高級架構師。他2016年創立AI芯片公司Tenstorrent,2023年將其交接給吉姆·凱勒(Jim Keller)後,又創辦了Taalas。Taalas的另外兩位創始人是巴吉克的妻子、曾在AMD擔任係統工程高級經理的萊拉·巴吉克(Lejla Bajic)以及曾在AMD擔任高級設計工程師、在Tenstorrent擔任工程師的德拉貢·伊格(Drago Ignjatovic)。不過在社交平台上,有不少用戶吐槽:Taalas的產品確實快,但錯誤率過高。芯東西提問了“9.9和9.11比大小”以及經典的雞兔同籠題目,該模型分別在0.001秒、0.017秒內給出了錯誤答案。
巴吉克稱,Taalas的極端方案可能很適合某些特定應用,本質是找到追求經濟效益和速度而犧牲靈活性的方法。
Taalas還透露了下一步計劃,他們將基於HC1為第二款中等規模的推理模型打造芯片,該模型預計於今年春季在實驗室完成流片,並很快集成至其推理服務中;隨後,該公司將基於第二代芯片平台HC2推出新大語言模型,HC2將提供更高的算力密度與更快的執行速度,計劃在今年冬季正式部署。
01.極致性價比30顆芯片模擬部署DeepSeek R1
2月20日,Taalas正式推出首款芯片平台HC1,該平台已集成Meta Llama 3.1 8B模型,用於聊天機器人演示與推理API服務。其官方博客提到,基於HC1,Llama 3.1單個用戶的生成速度可達17000個token/秒,速度接近Cerebras推理平台的10倍,構建成本為Cerebras現有方案的1/20,功耗為1/10。Taalas發布了HC1集成Llama 3.1 8B的免費試用鏈接。芯東西提出的需求是“請詳細提供1960年至1972年阿波羅計劃逐年的完整曆史,包括任務目標、技術挑戰、核心人員、飛行裏程碑與科學發現。”Llama 3.1僅0.078秒就輸出了答案,每秒可輸出15694個token,其輸出內容對關鍵分類進行了羅列。
根據Taalas發布的成本與延遲對比數據,基於Taalas的芯片方案,Llama 3.1 8B的推理查詢成本為每百萬token 0.75美分(約合人民幣0.052元),DeepSeek R1的成本為每百萬token 7.6美分(約合人民幣0.53元)。相比之下,Llama 3.1 8B在GPU吞吐量優化方案上的成本為每百萬token 3.79美分(約合人民幣0.26元),DeepSeek R1為20.2美分(約合人民幣1.4元),延遲優化方案中,Llama 3.1 8B的成本為28.61美分(約合人民幣2元),DeepSeek R1為49美分(約合人民幣3.37元)。
可以看出,Taalas在token生成成本、延遲上相較英偉達GPU效果都更好,尤其在參數規模更小的模型上更是實現了數量級的領先。該公司的第一代芯片平台HC1采用了自定義的3位基礎數據類型,這是因為他們在進行研發設計時,低精度參數格式尚未形成標準。集成Llama時,Taalas還采用了激進的量化方案,混合使用3位與6位參數,相較於GPU基準測試,會帶來一定的精度損失。Taalas的收入來源將分為兩塊,推理即服務、HC硬件。在官宣博客中,Taalas將基於Llama 3.1 8B的HC1稱作測試版服務,其目的是讓開發者體驗大模型推理實現亞毫秒級速度、且成本近乎為零的同時,探索更多新應用。這一服務預計不會產生顯著收入。
02.遵循三大原則2個月內完成芯片定製
一般而言,對於更新的模型,Taalas能在不到兩個月內完成芯片定製。巴吉克對此的解釋是,由於Taalas的芯片高度專業化,其設計比英偉達的同類產品更簡單,因此生產速度更快。例如一塊Taalas芯片就能容納一個完整的大語言模型,將模型及其權重硬編碼到HC1中(zhong),然(ran)後(hou)將(jiang)整(zheng)個(ge)模(mo)型(xing)嵌(qian)入(ru)到(dao)定(ding)製(zhi)的(de)專(zhuan)用(yong)芯(xin)片(pian)中(zhong),而(er)無(wu)需(xu)像(xiang)英(ying)偉(wei)達(da)和(he)其(qi)他(ta)公(gong)司(si)那(na)樣(yang)依(yi)賴(lai)外(wai)部(bu)高(gao)帶(dai)寬(kuan)內(nei)存(cun)。這(zhe)一(yi)過(guo)程(cheng)中(zhong),該(gai)公(gong)司(si)遵(zun)循(xun)三(san)個(ge)原(yuan)則(ze)。第(di)一(yi)是(shi)完(wan)全(quan)定(ding)製(zhi)化(hua)(Total specialization):其團隊認為,在計算機發展史上,深度專業化一直是讓關鍵工作負載以極高效率運行的最可靠途徑之一。因此,Taalashuiweimeigedandudemoxingshengchanzuijiaxinpian,yejiushijiangtedingdemoxingshenjingwangluoyingshedaoxinpianbenshen,congerzhenduimeigemoxingyouhuajichusheshi。diershishixiancunchuyujisuanronghe:此前,AI推理芯片架構設計中計算與存儲相互分離,且二者運行速度存在顯著差異,這直接導致當前AI推理硬件架構日趨複雜。係統不僅需要依賴先進封裝、HBM堆棧與超高I/O帶寬,再加上單芯片功耗攀升,有時必須依靠液冷方案才能穩定運行。其博客提到,Taalas的突破性就在於,將存儲和計算統一在單個芯片上,並達到DRAM級別的密度,以此來解決此前計算和內存分家的痛點。第三是極致簡化(Radical simplification):在融合存儲與計算,並針對每個模型定製芯片的基礎上,Taalas可以從根本上重新設計整個硬件堆棧。其最終得到的係統不依賴於複雜或特殊的技術,不需要HBM、先進封裝、3D堆疊、液冷等。HC在設計時還進一步降低了AI部署中的能耗和成本。HC係統每個機架的能耗為12-15千瓦,GPU每個機架的能耗則高達120-600千瓦。再加上Taalas的機架可采用風冷散熱,從而進一步降低數據中心的改造成本。此外,Taalas HC1 PCIe卡幾乎可以安裝在任何服務器中,並支持英特爾和AMD的CPU。
03.業界好評與擔憂並存缺乏靈活性、機架壽命短引熱議
憑借HC1的性能和極低成本,Taalas近(jin)期(qi)獲(huo)得(de)了(le)不(bu)少(shao)關(guan)注(zhu),但(dan)業(ye)界(jie)仍(reng)提(ti)出(chu)了(le)反(fan)對(dui)意(yi)見(jian)。其(qi)優(you)勢(shi)顯(xian)而(er)易(yi)見(jian)。即(ji)便(bian)雲(yun)服(fu)務(wu)商(shang)每(mei)次(ci)模(mo)型(xing)更(geng)新(xin)時(shi)都(dou)要(yao)更(geng)換(huan)數(shu)千(qian)顆(ke)加(jia)速(su)芯(xin)片(pian),在(zai)四(si)年(nian)的(de)可(ke)比(bi)使(shi)用(yong)周(zhou)期(qi)內(nei),Taalas方案的資本支出(CAPEX)仍能比其他AI加速方案節省60%–75%,同時還能為用戶提供全球最快的AI推理服務。企業擔憂的關鍵之一在於,Taalas的(de)方(fang)案(an)缺(que)乏(fa)靈(ling)活(huo)性(xing)。使(shi)用(yong)其(qi)方(fang)案(an)的(de)企(qi)業(ye)將(jiang)不(bu)得(de)不(bu)長(chang)期(qi)適(shi)配(pei)同(tong)一(yi)固(gu)化(hua)模(mo)型(xing)的(de)多(duo)個(ge)迭(die)代(dai)版(ban)本(ben),同(tong)時(shi)還(hai)要(yao)部(bu)署(shu)不(bu)同(tong)的(de)芯(xin)片(pian)版(ban)本(ben)來(lai)運(yun)行(xing)各(ge)異(yi)的(de)模(mo)型(xing)。如(ru)此(ci)繁(fan)多(duo)的(de)版(ban)本(ben),會(hui)加(jia)重(zhong)數(shu)據(ju)中(zhong)心(xin)的(de)運(yun)營(ying)複(fu)雜(za)度(du)。但(dan)《福布斯》認為,即便如此這套方案依然非常劃算。因為如果一家數據中心隻有少數幾個模型,卻占用了生產環境中絕大部分AI推理算力,那用這種專用芯片的性價比會很高。企業擔心的另一個點是Taalas機架的使用壽命較短。目前,英偉達和AMD的更新周期都是以年為單位,但Taalas的模式就意味著,每個模型都要跟著更新。大模型基本1~1.5年就會迭代一次,而新一代芯片的研發通常需要2~3年。針對這一隱憂,Taalas的應對策略是,通過對兩層金屬層進行改動來升級基礎邏輯層,無需徹底重新設計。《福布斯》估計,Taalas很可能讓台積電預先存儲未完成的晶圓,以便添加這兩層金屬互連層,從而實現在兩個月內完成交付。
總結
Taalas的橫空出世無疑為AI基礎設施領域提供了一種極具顛覆性的新思路:通過“存儲計算融合”與“模型硬件固化”,它成功打破了傳統馮·諾依曼架構中內存牆的限製,在特定模型的推理速度與能效比上實現了對英偉達等通用GPU方案的代際超越。其提出的“兩個月定製芯片”模式及極致的成本控製,證明了在追求經濟效益和極速響應的垂直場景中,專用ASIC架構擁有巨大的應用潛力。

- 噪聲中提取真值!瑞盟科技推出MSA2240電流檢測芯片賦能多元高端測量場景
- 10MHz高頻運行!氮矽科技發布集成驅動GaN芯片,助力電源能效再攀新高
- 失真度僅0.002%!力芯微推出超低內阻、超低失真4PST模擬開關
- 一“芯”雙電!聖邦微電子發布雙輸出電源芯片,簡化AFE與音頻設計
- 一機適配萬端:金升陽推出1200W可編程電源,賦能高端裝備製造
- 貿澤EIT係列新一期,探索AI如何重塑日常科技與用戶體驗
- 算力爆發遇上電源革新,大聯大世平集團攜手晶豐明源線上研討會解鎖應用落地
- 創新不止,創芯不已:第六屆ICDIA創芯展8月南京盛大啟幕!
- AI時代,為什麼存儲基礎設施的可靠性決定數據中心的經濟效益
- 矽典微ONELAB開發係列:為毫米波算法開發者打造的全棧工具鏈
- 車規與基於V2X的車輛協同主動避撞技術展望
- 數字隔離助力新能源汽車安全隔離的新挑戰
- 汽車模塊拋負載的解決方案
- 車用連接器的安全創新應用
- Melexis Actuators Business Unit
- Position / Current Sensors - Triaxis Hall



