本文作者:访客

不是Arm CSS定制!小米玄戒O1究竟自研了什么

访客 2025-05-26 10:12:28 252256
不是Arm CSS定制!小米玄戒O1究竟自研了什么摘要: 近日,备受争议的小米首款旗舰SoC玄戒O1在正式发布之后,依然是争议不断。最新的质疑称,玄戒O1并不是小米自研的,而是由Arm公司为小米定制的。起因是,Arm官网近日发布了一篇题为...

近日,备受争议的小米首款旗舰SoC玄戒O1在正式发布之后,依然是争议不断。最新的质疑称,玄戒O1并不是小米自研的,而是由Arm公司为小米定制的。

不是Arm CSS定制!小米玄戒O1究竟自研了什么

起因是,Arm官网近日发布了一篇题为《XRING O1 Custom Silicon;from Xiaomi is Powered by the Arm Compute Platform》的新闻稿(已删除),常规翻译过来的意思就是小米的XRING O1定制芯片由Arm计算平台提供支持,并称这标志着小米与Arm合作15年,小米的第一个定制芯片为下一代设备带来了先进的AI和性能提升。

不是Arm CSS定制!小米玄戒O1究竟自研了什么

于是乎很多的网友质疑玄戒O1并不是购买了Arm的IP来自己研发设计的,而是由Arm基于其CSS;for Client(面向客户端的 Arm 计算子系统 )为小米定制的。

那么,事实究竟如何呢?下面芯智讯就结合已有的公开信息和我们通过采访了解到的相关信息来解读一下:

一、什么是Custom Silicon?

虽然Arm官网发布的关于小米玄戒O1的文章当中用了Custom Silicon这个英文词组,按照字面意思似乎是定制芯片,然而实际上,在半导体行业当中,Custom Silicon指的是高度自定义的芯片。这一点Arm在其官网上其实就有介绍。

Custom Silicon是指:专为特定应用或用户设计的集成电路 (ASIC)。与为现成通用目的而生产的传统芯片不同,Custom Silicon 经过优化,可满足独特的性能、功耗和功能要求。

通用芯片提供的配置选项有限,例如 CPU 核心数量和功耗设置,而Custom Silicon则允许更深入的定制,例如 I/O 功能、内存接口和特定工作负载的加速器。这种定制可以根据特定用例提升性能和效率。

不是Arm CSS定制!小米玄戒O1究竟自研了什么
△图片来源:https://www.arm.com/glossary/custom-silicon

Arm还进一步指出,相对于架构是固定的,并适用于更通用应用的标准芯片设计来说,Custom Silicon允许设计人员针对特定工作负载优化芯片的各个方面,包括内存、电源管理和处理速度进行优化。

此外,与通用的标准芯片相比,Custom Silicon能够帮助企业实现更高的性能、更低的功耗、更佳的功能集成度和更强的安全性。能够根据特定需求定制芯片设计,为企业带来竞争优势。

Arm还举例称,亚马逊自研的 AWS Graviton 处理器就是专为云计算打造的Custom Silicon,具有优化的内存加密和能效。另一个例子是亚马逊的 AWS Nitro DPU,它也是Custom Silicon,能够更高效地处理存储、网络和安全问题。

不是Arm CSS定制!小米玄戒O1究竟自研了什么
△图片来源:https://www.arm.com/glossary/custom-silicon

亚马逊云科技也在其官网上对于Graviton 处理器介绍中指出,它(Graviton处理器)是亚马逊云科技基于Arm针对云计算优化 Neoverse(Arm面向服务器/数据中心端的IP核) 系列架构设计,并结合亚马逊云科技用户使用经验从业务负载角度做了定制和优化。

不是Arm CSS定制!小米玄戒O1究竟自研了什么
△截图来源:https://aws.amazon.com/cn/campaigns/graviton/

显然,从Arm官方和亚马逊官方的介绍来看,作为Custom Silicon的AWS Graviton 处理器并不是Arm来为亚马逊定制的处理器,而是亚马逊基于Arm提供的面向数据中心的Neoverse系列IP核设计,结合了亚马逊用户需求来定制和优化的一款处理器。

同理,小米玄戒O1作为一款Custom Silicon也只是基于Arm提供的面向移动终端的处理器IP设计,然后结合了小米面向自身客户需求进行了一些列的定制和优化的一款处理器。

二、Arm的商业模式是什么?是否提供芯片定制服务?

Arm公司是一家半导体IP设计公司,其本身不制造、也不销售任何实物芯片,只是设计自己的半导体IP,并通过将其授权给客户来获得收入。这些IP包括指令集架构、微处理器、图形核心、NPU(神经网络处理器)核心、互连架构等等。

具体来说,Arm业务主要有四大类:

1、指令集架构授权(Architectural License):客户可基于Arm指令集自主设计芯片架构,比如苹果、高通、华为。 ;

2、IP核授权(IP Core License):客户直接使用Arm设计好的IP内核,比如Cortex-A系列CPU内核、Mali系列GPU内核、Ethos系列NPU内核。

3、计算子系统(CSS)许可包。

4、技术咨询服务。 ;

IP核授权主要包含两种类型:

一种是软核授权,提供寄存器传输级(RTL)源代码,客户可进行代码级的单元测试,可以自行完成逻辑设计和物理设计;

另一种则是硬核授权,即该内核IP是已经完成了晶体管的布局布线的物理版图,并且与相关晶圆厂的特定制造工艺进行了绑定,是经过优化验证的,通常以 GDSII 文件或等效文件的形式提供给客户。虽然,客户无法对其进行修改,但可以直接拿来集成到自己的SoC设计当中,并交由代工厂制造,可以大幅缩短开发周期,风险也较低。

IP授权收费模式

IP授权主要分为前期授权费,以及根据每颗芯片的售价按比例收抽取版税(royalty)。指令集授权则是一次性买断。

不是Arm CSS定制!小米玄戒O1究竟自研了什么

那么,Arm是否有芯片定制服务呢?

严格来说,Arm并没有对外提供芯片定制服务,因为对于一款芯片来说,光有CPU/GPU等核心IP是远远不够的。而且,Arm作为一家上市公司来说,也从未在财报当中披露其有给客户专门定制SoC的服务。

实际上,半导体行业有很多专门为客户提供芯片定制服务的企业,比如创意电子、世芯、博通、Marvell、芯原股份等,其中一个关键因素在于,他们手中都拥有丰富的半导体IP和芯片设计和流片经验,以及能够拿到很多晶圆厂端的资源支持。

而据芯智讯了解,目前能从台积电拿到产能支持的后端芯片设计服务厂商就只有创意电子、世芯、博通和Marvell四家公司。

当然,Arm也希望针对客户的需求来发展类似半定制化的IP整合包服务,即提供Arm计算子系统(CSS)平台,甚至是有计划自研芯片来直接销售给客户。

在2024年12月,Arm与高通的关于技术授权问题的诉讼庭审当中,高通就指控称,Arm正在为客户端和数据中心处理器以及其他用例提供Arm计算子系统(CSS),存在与客户竞争的嫌疑。

同时,高通的法律团队出示了Arm 首席执行官 René Haas为 Arm 董事会准备的一份文件,表明Arm还在考虑设计自己的芯片直接提供给客户,这将使其成为包括高通在内的客户的主要竞争对手。

René Haas则驳斥了这些说法,称虽然 Arm 正在探索各种商机,但Arm不制造芯片,也从未涉足过这个行业。

不过,今年2月,英国《金融时报》爆料称,Arm正在开发自己的芯片,首款自研芯片最快会在今年夏天推出,将由台积电代工,Meta可能将会成为首批客户之一。

所以,实际上目前Arm并没有对外提供定制芯片服务,而Arm计算子系统(CSS)也并不是给客户定制的,而是将Arm现有的CPU等IP整合成一个系统平台来进行销售。

三、什么是Arm;CSS?

Arm CSS全称是计算子系统(Compute Subsystem),最早是在2023年针对Arm Neoverse 基础设施产品推出的计算子系统 (CSS) ,首款产品是 Arm Neoverse CSS N2。

根据当时的Arm产品管理高级总监 Jeff Defilippi介绍,所谓的Neoverse CSS实际上是Arm;Neoverse系列多核设计,包括了将CPU、互连、虚拟化 IP 要求等整合在一起,进行验证,并将其作为生产就绪的 RTL 可交付成果交付给客户。

除了 RTL 之外,Arm还提供与之相关的额外的实现包、平面图、实现脚本以及达到该性能所需的物理 IP 库以及设计所需的功耗范围,以及完整的软件参考堆栈。

不是Arm CSS定制!小米玄戒O1究竟自研了什么

不是Arm CSS定制!小米玄戒O1究竟自研了什么

根据Jeff Defilippi当时的说法,客户通过使用Arm提供的CSS包来进行芯片开发,与使用普通 IP 许可证来进行开发相比,可以节省80个工程师一年时间的开发。而且保留了相当的自由度。(应该是指也可以软核交付,客户可以进一步开发和优化设计)

不是Arm CSS定制!小米玄戒O1究竟自研了什么

显然,Arm CSS并不是以交钥匙的方式去帮助客户直接定制芯片,而是为客户提供了多核集群的系统级解决方案,客户不需要再购买单独的购买不同类型的IP核来进行多核集群的系统搭建,可以直接选择Arm的CSS包来进行开发,并且客户还能在这个基础上继续进行定制开发自己的SoC。

而Arm高管关于采用CSS平台研发比普通IP许可研发方式可以节省80个工程师一年时间的开发的说法也印证了这一点。

因为,一款旗舰手机SoC的研发至少需要接近1000人的研发团队经过两三年的研发,如果使用Arm CSS平台只是能节省80个工程师一年的工作量,怎么能将该芯片称之为完全是交由Arm定制的呢?更何况一款旗舰SoC当中,除了CPU/GPU之外,还有很多其他的功能模块。

Arm的Neoverse CSS解决方案在服务器市场获得成功之后,在2024年5月底,Arm正式发布了首款面向智能手机和PC等终端产品的 Arm 计算子系统 —— Arm CSS for Client。

根据Arm官网的介绍,Arm CSS for Client整合了最新的 Armv9.2 指令集的 CPU 集群,包括最高性能的 Cortex-X925 CPU、最高效的 Cortex-A725 CPU、更新后的 Arm Cortex-A520 CPU,以及性能最高、效率最高的 GPU——Arm Immortalis-G925 GPU 等,并通过Arm CoreLink CI-700进行互联。

不是Arm CSS定制!小米玄戒O1究竟自研了什么

同时,Arm CSS for Client还引入了在3nm上优化的生产就绪、硬化的CPU和GPU核心实现。这些可在多个晶圆代工使用,提供了最大的灵活性。CSS for Client还可使用CSS RTL改进在3nm芯片上提供一流的PPA。

总结来说就是,Arm CSS for Client是一个整合了Arm最新的X925超大核、X725大核、A520能效核和G925 GPU核心及互联多核解决方案包,并且该解决方案是经过各晶圆厂3nm制程优化验证的,可以直接提供硬核交付。

值得一提的是,Arm在2024年宣布推出Arm CSS for Client的新闻稿中,联发科技资深副总经理、无线通信事业部总经理徐敬全博士当时就表示,天玑 9400将搭载最新的Armv9 Cortex-X925 CPU 和 Arm Immortalis-G925 GPU客户端解决方案。我们与 Arm 保持着长期而紧密的合作关系,致力于不断提升移动芯片的性能和功能,共同推动计算技术的快速发展。

不是Arm CSS定制!小米玄戒O1究竟自研了什么

不是Arm CSS定制!小米玄戒O1究竟自研了什么

不是Arm CSS定制!小米玄戒O1究竟自研了什么

同时,vivo首席芯片规划专家夏晓菲也表示:vivo 非常注重用户体验,在 Arm CSS 的技术基础之上,我们与 Arm 的密切合作,共同推动开发者生态,使手机更流畅更好用,同时也为设备端带来了前沿的 AI 体验。

随后,vivo X200 系列旗舰级首发搭载了联发科的天玑9400。

那么,联发科天玑9400是否是采用了Arm CSS for Client解决方案呢?

Arm在2025年2月5日发布的2025财年第三季度电话财报会议记录当中就有明确提到,天玑9400;SoC基于我们的CSS for Client,其中包括Arm Cortex-X925 CPU和Immortalis-G925 GPU。

不是Arm CSS定制!小米玄戒O1究竟自研了什么
△来源:https://investors.arm.com/static-files/f1190d81-408d-4276-a30c-b27c1ce5a30a

显然,联发科天玑9400就是基于Arm;CSS for Client平台打造的,所以其X925大核也是基于Arm公布的3.6GHz标准主频。

那么,天玑9400是Arm给联发科定制的芯片吗?显然不是!

而且,Arm还指出,芯片复杂性的增加正在推动顶级超大规模制造商在最新的Armv9和CSS上‘Custom Silicon’(面向自己的用户需求自定义芯片)。我们正在通过AWS Graviton、微软Cobalt、谷歌Axion和英伟达基于基Arm技术的Grace芯片在数据中心获得份额。

显然,AWS Graviton、微软Cobalt、谷歌Axion和英伟达Grace CPU也都被Arm定义为Custom Silicon。这些芯片也并不是Arm为他们定制的,而是他们基于Arm的IP来自己设计的。

值得一提的是,网上也有不少网友认为,小米玄戒O1可能是基于Arm Total Design(Arm全面设计)项目推出的。

这里需要指出的是,Arm Total Design实际上是为了助力 Arm 服务器 CPU 厂商的芯片设计而推出的。

2023 年 10 月,Arm整合了特殊应用 IC (ASIC) 设计公司、IP 供应商、电子设计自动化 (EDA) 工具供应商、晶圆厂与固件开发商等业界领导企业资源,推出了Arm Total Design,主要是致力于加速并简化面向数据中心的 Neoverse CSS 构架系统的开发,协助各方进行创新、加速产品上市时程,并降低打造客制化芯片所需的成本与阻力。

简单来说,Arm Total Design为了助力亚马逊、谷歌、微软等云厂商加快自己的Arm服务器CPU设计,不仅提供Arm;Neoverse CSS解决方案,而且还整合了他们可能会需要的芯片设计服务公司、IP供应商、EDA工具商、晶圆厂等相关的资源。但是这也并不是Arm来为客户提供一站式的芯片设计服务。

2024年 6 月,联发科就有宣布加入Arm Total Design生态项目,这也引发了当时关于联发科可能将进军数据中心市场的相关报道。

另外,可以明确的一点是,Arm Total Design至今都是围绕着数据中心市场,根本没有面向智能手机/PC等客户端市场推出。所以,小米也不可能因为设计手机芯片玄戒O1而加入面向数据中心的Arm Total Design项目。

四、小米玄戒O1是否基于Arm CSS for Client?

从玄戒O1所采用的3nm制程以及2个Cortex-X925超大核、4个Cortex-A725大核、2个Cortex-A725能效大核、2个Cortex-A520能效小核,以及G925 GPU核心的集群组合来看,确实有可能是采用了Arm CSS for Client解决方案。

不是Arm CSS定制!小米玄戒O1究竟自研了什么

不过,据安谋科技的人向芯智讯透露,据其了解,小米玄戒O1并不是基于Arm CSS for Client平台方案。

芯智讯也联系了小米集团副总裁、玄戒负责人朱丹进行求证,对方表示,小米是买的Arm IP软核授权,CPU/GPU多核及访存的系统级设计完全由小米自主研发,后端设计也是完全由小米自主研发,并非是基于Arm CSS软核或硬核方案。

这里有必要介绍一下一款芯片的设计流程,主要可以分为前端设计和后端设计两个部分。

前端设计主要包括:

1、规格与功能定义:确定芯片需要什么样的性能、要做到什么样的功耗、成本需要控制在多少等;

2、系统设计:确定芯片架构、业务模块、供电等系统级设计,比如用什么IP、多个核心、多个丛集、配置多少缓存、怎么互联等;

3、代码描述:将芯片的具体电路进行RTL级别的代码描述;

4、逻辑综合:将所设计数字电路的高抽象级描述,经过布尔函数化简、优化后,转换到逻辑门级别的电路连线网表的过程,以确保电路在面积、时序等目标参数上达到标准;

5、仿真验证:利用计算机软件、模型和算法来模拟和分析电路设计的准确性和稳定性。

显然,对于玄戒O1来说,前端设计主要是在完成对于芯片的规格和功能定义之后,对于Arm IP以及自研或第三方IP的选择,拿到对应的RTL之后,再进行逻辑综合并进行仿真验证。这部分的工作量其实并不太大,更大的工作量实际都集中在后端设计上。

不是Arm CSS定制!小米玄戒O1究竟自研了什么

后端设计主要包括:

按照既定的目标PPACR(Power、Performance、Area、Cost、Reliability)的限制,借助EDA在硅片面积内,对电路进行布局/(FloorPlan&Place)、布线(Routing)以及时钟树综合(CTS),将门级网表转化为GDS(Geometry Data Standard)物理版图。

此后进行签核验证,对布线后的物理版图进行功能和时序上的全面验证,如设计规则查验(Design Rule Check)、版图和电路比对(Layout Versus Schematic) 、时序静态分析(Static Timing Analysis , STA)、功耗分析(Power Analysis)等,确保最终物理版图满足设计需求。

需要指出的是,后端设计同样是不断迭代的过程,仿真验证不满足要求,同样需重复前序流程。仿真验证没有问题之后,才会进行流片。

五、玄戒O1究竟做了哪些关键自研工作?

正如前面所介绍的那样,如果小米玄戒O1采用了Arm CSS for Client的硬化IP,那么就等于是省去了整个核心的CPU计算集群很多后端设计工作,虽然可以缩短开发周期,并降低开发风险,但是也就无法对整个核心的CPU计算集群进行修改或加入自研的技术,以进一步提升性能和功耗表现。

1、三大自研技术提升至3.9GHz主频

Arm在发布Cortex-X925超大核时公布的信息是,该CPU内核主频最高可达3.8GHz(常规为3.6GHz),而玄戒O1公布的Cortex-X925超大核之则实现高达3.9GHz的主频,这正是得益于小米自研的边缘供电技术、自研标准单元(StdCell)和自研高速寄存器的加持。

据朱丹向芯智讯介绍,传统芯片的超大核采用MTCMOS方式供电,逻辑计算单元周围分布着错综复杂的供电网络,成千上万的供电单元散布在逻辑计算单元中间,导致逻辑计算单元之间的距离疏远。

通俗来说,从逻辑计算单元A到逻辑计算单元B,需要绕路。而玄戒O1在X925超大核上设计了全新的边缘供电技术,将供电单元统一集中到超大核两侧,再通过立体空间组网供电的方式,实现了电源的均流。

这样核心内部的逻辑计算单元就更加致密,相互之间的物理距离更近,在保证高质量电源供给的前提下,时钟速度可以得到提升。

同时,小米为了实现玄戒O1的性能指标,在晶圆厂基于3nm工艺提供的1500多种各式各样的标准Cell(门级电路是有多个晶体管组成的,而Cell是由门级电路组成的具备基础功能的最小单元)基础上,重新设计了480多种组合逻辑和时序逻辑单元,并且应用在了CPU内部最关键的路径上,这也是让玄戒O1的超大核频率能够提升到3.9GHz的关键。

此外,小米芯片研发团队针对不满足性能条件的关键路径,逐条打开,调整寄存器内部两级锁存器(Latch)的工作逻辑,调整两级Latch 的时钟延迟,让前一级路径时序 margin更大,同时不影响下一级路径时序。通过小米自研的全新的高速寄存器,将不满足3.9GHz(256皮秒)的1000条关键路径进行提速,最终让玄戒O1的超大核主频得以提高至3.9GHz。

2、超低功耗设计

除了利用自研技术提升玄戒O1的CPU性能之外,小米还在改进玄戒O1的能效表现上下了非常大的功夫。

根据小米披露的信息来看,玄戒O1的四个A725性能大核在持续高性能的情况下,其功耗表现是优于同样是3nm的苹果A18 Pro大核;同样,玄戒O1的2个低功耗A725核心+2个A520核心在能效表现上也优于苹果A18 Pro的能效核。

不是Arm CSS定制!小米玄戒O1究竟自研了什么

不是Arm CSS定制!小米玄戒O1究竟自研了什么

首先,在CPU集群设计上,玄戒O1并没有采用常见的2+4+2的三丛集设计,而是采用了2+4+2+2的组合,其中2颗A520+2颗低主频的A725形成4核双能效丛集,相比传统的2+4+2三丛集设计,各场景功耗降低了2%-6%。

不是Arm CSS定制!小米玄戒O1究竟自研了什么

其次,小米芯片团队还针对玄戒O1整个SoC全局进行4级低功耗系统划分,玄戒O1可以根据用户的使用状态,在Level 0 到Level 3四种状态自由切换,通过90+电源域分区控制,各个模块非用即关,可以大大降低了日常使用中因为芯片设计不合理导致的功耗浪费。

第三,众所周知,对于芯片来说,工作电压越低,功耗就越低,但是电压过低又会影响性能。

所以,找到不同CPU内核的电压和能效的平衡点,则是优化功耗的一个关键手段。对此,玄戒O1对CPU每个核心的每一个频点,都进行了系统化的VF扫频,在固定电压(V)下,寻找到能效最高的频率点位(Freq)。而扫频的过程,需要贯穿前端设计和后端设计,不断仿真验证进行迭代。

据了解,玄戒O1经过998种方案迭代,才固定了能效最优的物理电路版图,将CPU的每一个核心做到了极致,让每一个点位都找到能效最高的频率值,能效曲线表现更优,在相同性能下电压更低,A725和A520核心下探到0.5V的超低工作电压。

第四,小米芯片研发团队为了进一步降低工作电压,还在玄戒O1内部集成了25个性能传感器和22个温度传感器,可精准感知芯片内部不同区域、不同子系统的局部体质差异,在满足性能的前提下,进一步降低工作电压,最终让0.5V的最低工作电压,进一步下探到0.46V,据说是做到了行业最低。这也成就了玄戒O1在保持高性能下,出色的低功耗表现。

3、软硬深度协同的性能调度设计

由于玄戒O1采用的是2+4+2+2的四丛集CPU设计,这也意味着要想用好这个四丛集CPU,就必须要做到针对不同的需求场景能够实现快速的最优的调度,比如选择合适的CPU内核,并选择合适的工作电压和工作频率,否则就容易出现不必要的CPU计算资源的浪费或者计算资源不足而导致的卡顿。

而传统的CPU调度大多是通过软件来实现的,并且也是由CPU来运行软件调度算法,这就造成了CPU既要执行当前的任务,还要分心来做额外的调度计算,不仅会带来延迟,还可能降低调度的精准度,因为额外的调度计算本身也会被系统识别为工作负载。

为了解决这个问题,玄戒O1在CPU内部全新设计了独立的硬件级的微控单元,专门进行调度计算。不仅能够精准地监控SoC的负载状态,而且无需CPU计算,从而以更低的性能开销,快速调频,让CPU调度延迟从16ms降低至2ms。

此外,面对游戏等固定周期的场景,小米芯片研发团队还为玄戒O1还带来了更精准的联合一体化调频措施。

传统SoC的调频措施采用的是试错式调频,比如性能不足时,就提高频频,性能过剩了再降低频率,频率降多了出现卡顿,然后又再提高频率。这也意味着这种传统的SoC调频措施很容易出现计算资源的浪费,导致功耗的增加。

对此,由于小米芯片研发团队此前通过扫频的方式,掌握了每个核心的每个工作频率点位下的功耗表现,因此可以保证性能的前提下,一次性一体化调整各关键器件(CPU、GPU、L3、DDR、MainBus)的频率,获得满足性能需求同时功耗最低的SoC各单元的频点组合,找到全局最优解。

4、超大缓存设计

玄戒O1在CPU内部配备了超大容量多级缓存。其中,在二级缓存上,每个X925核心配备2MB L2缓存,每个A725核心均配备1MB L2缓存,A520核心共享512KB L2缓存,共计10.5MB L2缓存,并且还配备了16MB L3缓存,使得整个CPU的缓存容量达到了26.6MB。

作为对比,联发科天玑9400的L2缓存总计为7MB,L3缓存为12MB;高通骁龙8至尊版则配备24MB L2缓存(没有L3缓存)。

玄戒O1凭借充足的缓存可以高效存储高频数据,降低核心访问DDR读取数据的次数,从而提升核心间数据流转效率、提升最终用户体验,降低功耗。但是这样做的代价是大缓存会提升成本并占据较大的面积,以玄戒O1的L3缓存面积为例,其甚至超过两颗X925核心的面积之和。

不是Arm CSS定制!小米玄戒O1究竟自研了什么
△玄戒O1与其他旗舰手机SoC的芯片内部结构图对比

这似乎也可以解释,同样台积电N3E制程的加持下,未集成基带的玄戒O1的晶体管数量(190亿颗)比集成了5G基带的天玑9400的291亿颗晶体管少了34.7%,而面积却只少了13.5%。

5、自研第四代ISP技术

小米早在2019年就开始了自研ISP(图像信号处理器)芯片的研发。2021年3月底,小米首款自研ISP芯片澎湃C1正式推出并商用。随后,小米自研ISP芯片又持续迭代,今年年初发布的小米15 Ultra就集成了澎湃C3芯片。

不是Arm CSS定制!小米玄戒O1究竟自研了什么

玄戒O1则进一步集成了小米自研的第四代ISP技术,采用全新的三段式ISP处理管线(Pipeline)设计,相对于行业常规的两段式处理管线设计,能够有效提升ISP处理管线的灵活性,便于更多影像算法的Raw域迁移,对Raw域原始数据进行算法处理,带来高速高画质的影像体验。

此外,三段式设计,同样利于降低ISP功耗,降低对整个芯片的面积占用。相机CMOS传感器的速度远快于ISP,将一级流水和二级流水断开,一方面能够保持一级流水的高速高频状态,用以匹配CMOS。

而断开的二级流水和三级流水都可以同相机CMOS的时序解耦,避免整个ISP的处理管线都处于高频高速状态,降低功耗。同时二三级流水更「低速」就意味着面积更加小巧,玄戒O1的ISP面积仅为传统旗舰芯片的60%。

在性能上,玄戒O1的ISP每秒可以处理高达87亿个像素,单摄最大可支持两亿像素,三摄同开最大支持6400万+5000万+5000万。内置独立3A加速单元,自动对焦、曝光、白平衡速度最高可提升100%,让相机启动、相机连拍以及连拍后预览全面提速。

此外,玄戒O1的ISP内部新增两大画质增强硬件:

1、实时多帧HDR融合单元,不仅为视频带来更高的动态范围,全新的局部对齐技术可以大幅度降低鬼影;

2、Al智能降噪单元,利用CNN模型网络对 Raw域视频画面进行逐帧降噪处理,信噪比最高可提升13dB(信噪比提升约20倍)。凭借新增的两大画质增强硬件,可以支持手机实现全焦段超级夜景视频,暗光视频画面更加清晰锐利,而且第三方应用也可直接调用优秀的夜景视频能力。

6、自研NPU,100+常见AI算子硬化

目前端侧支持生成式AI功能已经成为了旗舰手机SoC的标配能力,而这就需要有强大的NPU内核来进行支持。

据了解,玄戒O1内置了6核心旗舰 NPU,集成Scalar标量加速器、Vector 矢量加速器和Tensor张量加速器,NPU算力可达44TOPS。作为对比,苹果A18 Pro的AI算力只有35TOPS。虽然骁龙8至尊版和天玑9400的NPU的具体算力官方并未公布,但是高通面向AI PC的骁龙X Elite的NPU算力也才45 TOPS。

此外,玄戒O1的NPU还配备了10MB专属大缓存,并针对AI影像算法、AI应用算法中经常使用的100多种基础算子进行硬化。对比传统软件计算,算子硬化通过专门的硬件加速,可大幅提升计算效率,对CNN、Transformer、Stable Diffusion等模型均有不同程度的加速。

如果搭配小米第三代端侧模型,玄戒O1能够带来速度更快同时功耗更低的端侧AI体验。据芯智讯了解,玄戒O1配合小米第三代端侧模型在AI文本润色任务处理上,速度可达62.13 Tokens/s,是iPhone 16 Pro Max的135%,但功耗仅60%。

7、其他

除了上述已经用于玄戒O1的小米自研技术之外,小米在此前的发布会上也公布了其自研的4G手表芯片玄戒T1,这也反应了小米在自研4G基带芯片技术上的突破,虽然目前这还只是一款4G Cat.1基带芯片,但是这也为后续自研更高速率的4G基带芯片,乃至未来的5G基带芯片带来了可能。

不是Arm CSS定制!小米玄戒O1究竟自研了什么

另据芯智讯了解,目前小米还在自研DDR接口IP等其他相关自研IP,未来都有可能整合进自己的玄戒系列SoC当中。

小结:

总结来说,Arm虽然在去年推出了CSS for Client平台,但是这并不是为客户去定制整个SoC,而是为客户提供CPU、GPU多核集群的系统级解决方案,并且可以绑定制程工艺的硬核方式进行交付,客户可以直接将Arm提供的CSS硬核包集成到自己的SoC设计当中,这样就减少了CPU/GPU这个核心计算模块的后端设计工作,降低开发难度、缩短开发周期、降低研发投入。

但是,从前面的介绍我们不难看出,小米芯片研发团队并没有采用Arm;CSS for Client平台的软核或硬核方案,而是单独买的最新的CPU、GPU内核IP授权,并且小米也确实在CPU系统设计当中加入不少自己的技术,比如自研的边缘供电技术、自研标准单元(StdCell)、自研的高速寄存器、将CPU工作电源降低到0.46V的低功耗设计、面向CPU调度计算的独立的硬件级微控制单元和一体化调频方案等。

目前几乎所有的智能手机芯片都是基于Arm架构的,其中绝大多数都是基于Arm的公版CPU+GPU IP核,少部分采用的是Arm公版CPU或基于公版CPU魔改+第三方(比如Imagination)GPU或自研GPU(比如高通部分芯片)。而采用Arm指令集授权来自研CPU内核IP的手机芯片厂商更是少之又少,目前主要有苹果、高通和华为,其中高通最新的骁龙8至尊版才完全转向了自研的Oryon CPU内核,华为则是自麒麟9000S才转向自研的Taishan CPU内核。

玄戒作为小米于2021年重新组建芯片研发团队之后推出的第一款SoC芯片,采用Arm公版的CPU/GPU内核IP也并不丢人,因为路需要一步步地来走,没有多代芯片的持续迭代,没有把CPU/GPU技术吃透,就不可能有自研CPU/GPU内核。

此外,对于一款旗舰SoC来说,仅有CPU/GPU计算核心是不够的,还需要图像信号处理器(ISP)、DSP(数字信号处理器)、NPU、内存与存储控制器、多媒体编解码器、无线模块(WiFi/蓝牙等)、基带(Modem)、电源管理、传感器中枢(Sensor Hub)、高速接口等一些列的IP来共同实现。

因此,芯片设计厂商即使买来了Arm公版CPU/GPU内核,也依然还是需要去完成手机SoC所必须的其他功能模块的开发。虽然上述这些模块也有一些第三方的IP供应商,但是要找到最适合自己IP,并整合到SoC系统当中,完成优化和验证,实现既定的规格和功能定义目标仍有很多的工作要做,这并不是像搭积木那样的简单。

特别是在越尖端制程工艺节点上,可以选择的第三方IP供应商就会更少,甚至可能都没有符合自身需求的第三方的供应商。数年前,OPPO芯片产品高级总监姜波在接受芯智讯采访时就曾表示,OPPO首款6nm的影像NPU——MariSilicon X时,需要可以用于6nm节点的高速MIPI接口IP,虽然也有一些第三方供应商,但是可选择范围较小,且依然是满足不了OPPO估算的数据量要求,最终被迫选择了自研MIPI IP。

所幸的是,玄戒O1这款芯片当中,除了有在Arm;CPU系统设计当中加入不少自己的技术之外,也有自研ISP和NPU IP。

另外,小米除了已有的自研快充芯片(澎湃P系列)、电池管理芯片(澎湃G系列)、信号增强芯片(澎湃T系列)、4G基带芯片(玄戒T1)之外,似乎还在研发DDR接口IP等其他的自研IP,凭借在这些方面技术积累,后续一些技术也有望被整合到未来的旗舰级玄戒SoC当中,推动玄戒SoC的全自研技术占比逐步提升。

阅读
分享