切换到宽版
  • 31阅读
  • 2回复

[数码相机]国产第二代7nm TPU明年上市!性能目标超NVIDIA H100 [复制链接]

上一主题 下一主题
在线jjybzxw

UID: 551814

 

发帖
215641
金币
640877
道行
2006
原创
2442
奖券
3260
斑龄
41
道券
1197
获奖
0
座驾
设备
摄影级
在线时间: 46988(小时)
注册时间: 2008-10-01
最后登录: 2026-01-02
只看楼主 正序阅读 使用道具 楼主  发表于: 前天 11:23

快科技12月30日消息,据报道,中昊芯英创始人兼CEO杨龚轶凡在接受采访时表示,公司第二代7nm TPU芯片已成功回片并进入测试阶段,计划于2026年二季度正式出货。

爆料信息显示,中昊芯英第二代TPU主要面向自动驾驶模型训练和超大规模数据中心推理,其单芯片算力预计达到400-800TFLOPS,性能目标直指NVIDIA H100以及谷歌的TPUv5p。

此外在能效方面,相比GPU或可降低30%以上,单位算力成本进一步优化,不过上述信息尚未得到官方确认。

杨龚轶凡还表示,未来中昊芯英将基本维持“一年一芯、一年两栈”的产品迭代周期,持续提升技术竞争力与市场响应速度。

中昊芯英成立于2019年,主要产品为支撑超大规模人工智能模型训练的高性能人工智能芯片与计算集群,其首枚自研的“刹那”(Chana)TPU训练芯片已于2023年实现量产交付。

该芯片基于12nm制程,拥有完全自主可控的IP核、全自研指令集与计算平台,计算性能最高可达NVIDIA A100的1.5倍,在相似的大模型负载下能耗降低30%。


山庄提示: 道行不够,道券不够?---☆点此充值☆
 
在线姜谷粉丝

UID: 1569053

精华: 2
级别: 玉清道君

发帖
165811
金币
475925
道行
20030
原创
766
奖券
359
斑龄
0
道券
30
获奖
0
座驾
设备
摄影级
在线时间: 20332(小时)
注册时间: 2012-06-21
最后登录: 2026-01-01
只看该作者 板凳  发表于: 前天 21:39
中昊芯英第二代7nm TPU芯片已成功回片并进入测试阶段,计划于2026年二季度正式出货。该芯片主要面向自动驾驶模型训练和超大规模数据中心推理,单芯片算力预计达到400-800TFLOPS,性能目标直指NVIDIA H100以及谷歌的TPUv5p。

中昊芯英成立于2019年,主要产品为支撑超大规模人工智能模型训练的高性能人工智能芯片与计算集群。其首枚自研的“刹那”(Chana)TPU训练芯片已于2023年实现量产交付,基于12nm制程,拥有完全自主可控的IP核、全自研指令集与计算平台,计算性能最高可达NVIDIA A100的1.5倍,在相似的大模型负载下能耗降低30%。

未来,中昊芯英将基本维持“一年一芯、一年两栈”的产品迭代周期,持续提升技术竞争力与市场响应速度。
如何不发帖就快速得到金币道行
 
我有我可以
在线jjybzxw

UID: 551814


发帖
215641
金币
640877
道行
2006
原创
2442
奖券
3260
斑龄
41
道券
1197
获奖
0
座驾
设备
摄影级
在线时间: 46988(小时)
注册时间: 2008-10-01
最后登录: 2026-01-02
只看该作者 沙发  发表于: 前天 11:23
中昊芯英第二代7nm TPU芯片进展深度解析

2023年12月30日,科技媒体披露了关于中国AI芯片企业中昊芯英(Zhonghao Xinying)在高端人工智能芯片研发上的重大突破:其第二代基于7nm制程的TPU芯片已成功回片并进入测试阶段,计划于2026年第二季度正式出货。这一消息不仅标志着国产高性能AI芯片在技术迭代和商业化落地方面迈出关键一步,也折射出中国在应对全球算力竞争、构建自主可控AI基础设施体系中的战略雄心。

以下从技术突破、产品定位、能效与成本优势、公司战略规划、行业影响与挑战五个维度进行系统性解读。
一、技术突破:7nm TPU实现自主架构闭环,逼近国际顶尖水平

中昊芯英第二代TPU芯片采用7nm先进制程工艺,单芯片算力预计可达400–800 TFLOPS(FP16/BF16),性能目标直指NVIDIA H100与Google TPUv5p——这两款目前全球最顶级的数据中心级AI加速器。
算力对标国际旗舰:NVIDIA H100峰值算力约为989 TFLOPS(稀疏模式下更高),而典型稠密计算场景多在500–750 TFLOPS区间;谷歌TPUv5p则主打高带宽与低延迟,在大规模模型训练中表现优异。若中昊芯英能达到800 TFLOPS以上且具备高效稀疏计算能力,则意味着其已进入“第一梯队”竞争圈。
全栈自研能力体现:该公司首代“刹那”(Chana)芯片即实现了IP核、指令集、编译器、运行时系统的完全自研。第二代延续此路线,表明其并非简单依赖代工厂升级制程,而是通过底层架构优化释放先进工艺红利,形成“硬件+软件+生态”的垂直整合优势。
关键技术挑战已部分攻克:7nm节点对芯片设计的功耗控制、信号完整性、散热管理等提出极高要求,尤其在大矩阵乘加单元(Matrix Multiply Unit)密集部署的情况下。成功回片说明公司在物理设计、EDA工具链适配、DFT(可测试性设计)等方面已积累深厚经验。
二、产品定位清晰:聚焦自动驾驶训练与超大规模数据中心推理

不同于多数初创AI芯片公司泛化应用场景的做法,中昊芯英明确将第二代TPU主攻两大高门槛领域:
(1)自动驾驶大模型训练
当前L4级以上自动驾驶正从规则驱动转向“端到端”神经网络驱动(如Tesla FSD V12、Wayve LMM),训练数据量呈指数增长,需千卡甚至万卡级集群支持。
中昊芯英芯片针对Transformer类模型优化张量布局与内存访问路径,配合专用通信协议(可能为类NCCL或自定义RDMA方案),有望在BEV+Temporal Fusion等复杂模型上实现比GPU更高的利用率。
自动驾驶客户通常重视确定性延迟与长期供应链安全,国产替代意愿强烈,为中昊芯英提供切入机会。
(2)超大规模数据中心推理
随着大语言模型参数规模突破千亿乃至万亿级别,推理成本成为云服务商的核心痛点。例如,GPT-4级别的模型每次响应能耗可能是传统搜索的数十倍。
TPU架构天生适合固定模式的批处理推理任务,尤其在动态批处理(Dynamic Batching)、KV Cache复用、量化压缩等方面具有结构性优势。
若该芯片支持INT8/FP8混合精度、具备高效的稀疏激活处理能力,并搭配成熟的推理服务框架(如类似TensorFlow Serving或Triton的国产替代),将在电商推荐、智能客服、AIGC生成等领域形成竞争力。

✅ 战略意义:避开消费级边缘AI红海市场,直击高价值、长周期、强定制化的B端核心场景,有利于建立技术壁垒与客户粘性。
三、能效与成本优势:构建可持续竞争力的关键支点

根据CEO杨龚轶凡透露的信息,新一代TPU在能效比方面相较主流GPU可降低30%以上功耗,同时单位算力成本进一步优化。这不仅是技术指标的提升,更是商业可行性的决定因素。

| 维度 | 分析 |
|------|------|
| 能效比(Performance per Watt) | 数据中心PUE压力日益增大,英伟达H100单卡功耗已达700W以上。若中昊芯英能在同等算力下实现<500W功耗,将显著降低冷却与电力基础设施投入,符合绿色计算趋势。 |
| 单位算力成本(Cost per TFLOPS) | 包括芯片单价、封装测试成本、配套互连与存储开销。若采用国产封测产线+Chiplet小芯片设计,结合规模化采购议价能力,有望将总体拥有成本(TCO)压低20%-40%。 |
| 软件栈成熟度影响实际效能 | 真实能效还取决于编译器优化程度、自动并行策略、容错恢复机制等。若缺乏成熟的PyTorch/Native接口支持,用户迁移成本高,理论优势难以转化为实际收益。 |

⚠️ 注意:上述能效数据尚未官方验证,需待第三方基准测试(如MLPerf)发布后方可确认可信度。
四、公司发展战略:“一年一芯、一年两栈”构建快速迭代护城河

杨龚轶凡提出未来将维持“一年一芯、一年两栈”的产品迭代节奏,释放出强烈的技术进取信号。
“一年一芯”:指每年推出一款全新芯片架构或重大改版,保持与摩尔定律同步甚至超越。对比国际巨头(如NVIDIA约两年一更新),此举极具挑战性,但有助于抢占窗口期,尤其是在美国持续收紧对华先进芯片出口背景下。
“一年两栈”:推测意为每年发布两次重大软件栈升级,涵盖驱动、编译器、调度器、调试工具链等。这意味着公司将资源向软件生态倾斜,以弥补初期硬件生态薄弱的问题。

🔍 深层意图解读:
加快反馈闭环:通过高频迭代快速收集客户反馈,修正架构偏差,缩短产品“死亡谷”周期。
绑定头部客户共创:与车企、互联网大厂联合定义下一代芯片规格,增强客户依赖。
构建人才吸引力:展示强大研发组织能力,吸引全球顶尖芯片工程师加入。

此外,该公司成立于2019年,仅用四年时间完成首代芯片量产交付(“刹那”芯片于2023年落地),显示出极强的工程执行力与资源整合能力。
五、行业影响与潜在挑战:国产AI芯片突围之路仍道阻且长

中昊芯英的进展是中国半导体产业在高端通用计算领域寻求突破的一个缩影。其成功与否,将在多个层面产生深远影响。
(1)正面影响
推动国产AI基础设施去美化进程:在美国限制A100/H100对华出口的大背景下,中昊芯英可作为替代选项之一,助力国内大模型企业摆脱“卡脖子”困境。
促进本土产业链协同升级:带动国内IC设计服务、EDA工具、先进封装(如CoWoS替代方案)、高速互连(CPO、硅光)等相关环节发展。
激发创新生态多样性:打破GPU主导范式,鼓励更多异构计算架构探索(如存算一体、光子计算等)。
(2)现实挑战
| 挑战类型 | 具体问题 |
|--------|---------|
| 生态壁垒 | CUDA生态历经十余年沉淀,开发者惯性强。即便硬件性能相当,迁移仍需大量重写代码、重新调优,阻碍 adoption。 |
| 量产可靠性 | 7nm良率控制难,尤其对于无晶圆厂(Fabless)企业,依赖台积电或中芯国际代工存在地缘政治风险。 |
| 国际竞争压力 | 英伟达已布局B100/Rubin架构,谷歌推进TPUv6,AMD Instinct系列也在追赶,技术代差随时可能被拉大。 |
| 融资持续性 | AI芯片研发烧钱迅猛,每代芯片流片成本可达数亿元人民币,需稳定资本支持才能维持“一年一芯”。 |

💡 建议方向:
联合高校与科研机构共建开源编译器项目(如对标MLIR),降低开发门槛;
推出“芯片即服务”(CaaS)模式,让用户先试用再采购,降低决策风险;
深耕垂直行业解决方案,而非单纯卖芯片,打造差异化服务能力。
结语:星辰虽远,步履不停

中昊芯英第二代7nm TPU的成功回片,是中国AI芯片发展历程中的又一座里程碑。它不只是一个技术成果,更是一种信念的象征——在极端复杂的全球科技格局下,中国依然有能力孕育出世界级的硬科技企业。

然而,真正的考验才刚刚开始:能否如期出货?能否通过严苛的稳定性与兼容性测试?能否赢得头部客户的批量订单?能否在2026年这个时间节点上,仍然保持相对竞争优势?

这些问题的答案,将决定中昊芯英是成为“中国的NVIDIA”,还是又一个倒在黎明前夜的追光者。

但无论如何,他们已经迈出了最关键的一步。正如其首代芯片名为“刹那”——那一瞬的光芒,或许正是时代转折的开端。

如何不发帖就快速得到金币道行
 
快速回复
限120 字节
认真回复加分,灌水扣分~
 
上一个 下一个