(报告出品方/作者:申万宏源研究,黄忠煌、洪依真、杨海燕)
1.1 Intel、微软、IBM 三方合作开启时代
IBM 正式与 Intel 和微软合作,是 Intel PC 端腾飞关键第一步。20 世纪 70 年代后期, 苹果和 IBM 分别垄断小型计算机和大型计算机市场。PC 市场苹果占据 90%份额,IBM 为 尽快抢占市场,在 Don Estridge 的带领下放弃了一直以来“软硬自研”的策略,转而向外 采购 CPU 和操作系统。1980 年,IBM 正式与 Intel 和微软合作。1981 年 8 月,IBM 推 出搭载Intel 8088 芯片+微软MS-DOS 操作系统的个人计算机PC-XT,在市场上大获成功。 PC-XT 的出现,大幅抢占了苹果的市场份额,苹果市占率也在此之后的十年内下降至了不 足 10%。1984 年,IBM 推出了第二代个人计算机 PC-AT,搭载了 Intel 286 处理器,是 上一代 PC 计算速度的 3 倍,一年之内 PC-AT 占到所有 PC 销量的 70%以上。 当时,市场上除了 Intel 还有诸如齐洛格、摩托罗拉、德州仪器等多家厂商制造微处理 器,且各家厂商都有自身的优势,而 Intel 抓住此次机会,装载到了这款现象级产品中,从 而实现“一家独大”。
从 IBM 拓展到康柏,“Wintel”实现了对 PC 的统治,是 Intel PC 端腾飞关键第二 步。IBM 由于内部决策原因,推迟发售搭载 Intel 386 的 PC,所以 Intel 转而在 1986 年与 康柏推出了搭载 MS-DOS 的 386 计算机,成为行业标杆。与此同时,IBM 的份额不断缩 小,克隆机厂商大量进入市场,为了和此前 IBM 的 PC 实现兼容,这部分厂商大都选择了 继续使用 Intel 的处理器和微软的操作系统,自此“Wintel”实现了对 PC 的统治。
所以从 Intel 在 1986 年之前的这段发展历程来看,实现破局的逻辑是,在自身技术积 累到一定程度后,通过合作推出了现象级产品,奠定了自身的行业地位,使市面上大多数 PC 都配备 Wintel,而后续的 PC 产品为了实现向前兼容,在性价比没有巨大差距的情况 下,自然惯性选择 Wintel,这种选择又进一步促进了 Wintel 生态的发展,加深了护城河, 开启了一个时代。
1.2 失败的冲击:性能落后/生态差距
随着 Intel 与微软在 PC 端各自领域内实现绝对领先,Wintel 生态不断强化,形成了生 态壁垒,为了实现突破,IBM、苹果等厂商开始通过自研或联合开发,来实现对 Wintel 生 态的攻击。对 CPU 替代的两次大规模冲击分别为:PowerPC 微处理器、RISC 阵营的挑战。 AIM 联盟 PowerPC 微处理器形成第一次冲击,由于性能失败。 1991 年,IBM、苹果、摩托罗拉也结成了联盟 AIM,1994 年便推出了第一台搭载 Power PC 处理器的苹果电脑 Power Macintosh、Power Book 笔记本等。 2005 年,WWDC 上,乔布斯正式宣布停用 Power PC 芯片,而是转向 Intel 的 X86 架构芯片。 2019 年 8 月,IBM 宣布正式将 Power PC 架构和指令集开源,也标志着此次冲击未 能实现预期目标。
性能落后,无法满足产品要求,是 Power 芯片冲击失败主要原因。2003 年,IBM PowerPC 970 处理器是 64 位芯片,其处理速度和效率远高于英特尔 32 位芯片,但是其 制程为 130nm,最多只能达到 1.8GHz,而苹果要求 CPU 运行速度要达到 3GHz,就需要 不成熟的 90nm 制造工艺。体现在产品上,PowerPC 970 由于散热和功耗的问题完全无法 用于笔记本电脑。同时,Power 生态上保持封闭,苹果没有将 MacOS 对外授权,IBM 投 入大量成本的 Power PC 只能随着苹果销售,份额无法突破的情况下,对于 IBM 来说商业 模式就不够成立,最终也是导致性能功耗与 Intel 产生较大差距,并且基于此的开发者较少, 这种不具规模的生态,最终只能是走向衰落。
微软在开发 Windows NT(Windows OS 内核)时,在对 DOS 进行战略分析时,担 心 RISC 芯片如果取代 Intel。1989 年,微软决定除了将 Windows NT 建立在英特尔 386 芯片上之外,同时选择 RISC 阵营最具代表性的公司 MIPS 作为另一个支持的芯片进行同步 开发。 MIPS 获得了微软的支持,但是并没有完成挑战,绝不是技术的原因,其根本是商业 化进程缓慢,以及架构授权的模式错过了发展时机。MIPS 开始对标 Intel,面向中高端市 场,功耗上相较于 ARM 没有优势,而其技术又不足以强大到撼动 Intel 的市场,同时,MIPS 执着于高清盒子等小众产品,错过了最关键的发展时机。MIPS 采用架构授权模式, 作为后发的冲击者,具有价格高、推出速度慢、兼容性差等缺点,难以完善自身生态,结 果既不能替代 X86 的份额,也不能像 ARM 一样逐步完善自身生态。
值得一提的是,苹果 PC ARM 方案已获得了初步成功。从 2001 到 2016 年,十五年 间,苹果先后发布五个革命性消费电子产品:iPod、iPhone、iPad、Apple Watch、Air Pods, 均内嵌 ARM 芯片。更早之前,苹果曾为 ARM 公司重要股东,直至 1997 年乔布斯回归苹 果后出售 ARM 股权。而在于 2020 年 11 月,苹果推出 M1 芯片(Mac),性能、能耗均 表现出色。苹果 2021 春季发布会上,苹果 CEO 蒂姆·库克表示,搭载苹果自研芯片 M1 的 Mac 电脑销量已经超过了搭载英特尔处理器的 Mac 电脑。
1.3 成功的冲击:AMD 厚积薄发
AMD 由于美国政策原因,拥有 X86 指令集的永久授权,与 Intel 不存在生态上的差 距。
1)2003 年之前,AMD 逆向工程主打性价比 AMD 在这段时间中主要依靠的是逆向工程,因此每一代 CPU 推出的时间点都会晚于 Intel 几年,因此在这么长时间以来,只能是通过性价比的商业策略,来占据市场 15%左右 的份额。
2)2003-2005:AMD 的 X86-64 架构实现第一次领先 AMD 率先设计出向下兼容原 X86 架构的 64 位 X86-64 指令集,并于 2003 年 9 月首 次推出基于此的 64 位 CPU——Athlon 速龙系列,由此开启为期 3 年性能领先于英特尔的 第一次成功时期。 最早的 64 位架构是英特尔联合惠普设计的——IA-64 架构,对应安腾处理器。但是 IA-64 和之前的 X86 架构完全不兼容,而 AMD 设计的 X86-64 是在 X86 架构基础上进行 的拓展,向下兼容 X86 原有的操作指令,原有的 16 位、32 位程序不需要重新编译即可运 行,编译器更新也更加容易。 由于 IA-64 在软件兼容性方面处于劣势,导致市场表现远远低于预期。2017 年英特尔 宣布停产安腾处理器,正式宣告了 IA-64 的失败。最终,英特尔只能选择和 AMD 交叉授 权拿到 AMD64 的使用权。
从 2004H1 开始,AMD 推出的一系列速龙 K8 处理器,性能明显超越英特尔奔腾 4 和 奔腾 D,英特尔在 X86-64 架构上的迟疑使得 AMD 不断抢占英特尔桌面处理器的份额。 2005 年 5 月 Intel 发布了世界上第一款双核 CPU 奔腾 D,但是英特尔是将 2 个奔腾 4Prescott 的核心封装在一起,通过前端总线(FSB)分别连接北桥,通过北桥来连接两个 核心(所以速度肯定有瓶颈,而且挑主板),其实是“胶水双核”;几周后便被 AMD 速 龙 64 X2 超越,推出了一系列“原生双核”CPU。
3)2006-2017:Intel 性能再次实现领先 2006 年英特尔提出并开始执行 Tick-Tock 战略——每两年升级一次工艺,每两年升 级一次架构。每年都有新一代处理器问世,从 45nm 的 Penryn(Core 架构第一代产品) 一直持续到了 14nm 工艺的 Broadwell。 2006 年 7 月英特尔具有革命意义的酷睿 2 上市,让 AMD 在桌面 CPU 市场优势全无, 性能全面超越 AMD。不久英特尔发布首个 4 核 CPU 酷睿 2Q 和 QX;为了应战,AMD 在 2007 年发布了首个 4 核 CPU 弈龙系列(X3/X4),但是性能仍然不如酷睿 2,此后的弈 龙 K10 架构也出现容易导致死机的严重漏洞。此后英特尔连续推出的酷睿 i3/i5/i7 性能完 爆 AMD,2009 年上半年 AMD 发布的与英特尔酷睿同时期竞争的 FX 推土机(Bulldozer) 架构进一步拉开了 AMD 落后于英特尔的差距。
4)2017 至今,AMD 凭借单核性能大幅提升、先进制程优势全面反超 Intel 英特尔从 2016 年开始陷入工艺制程的瓶颈与 Tick-Tock 战略脱节,被外界称为“挤 牙膏”模式。 2017 年3 月 AMD发布锐龙架构让其正式开启一个在 PC 领域全面反超Intel的时代。 2017 年 3 月 AMD 推出第一代锐龙(Ryzen)架构 CPU,第一代锐龙单核性能比英特尔弱, 除了凭借更多核心在极个别多线程应用中表现优秀之外,大部分正式应用中其实不如同期 英特尔的 CPU。 直至 2018 年 4 月 AMD 发布第二代锐龙,单核性能有了大幅提升,也解决了内存上 的问题;再加上英特尔 IDM 模式工艺制程升级遇到瓶颈,AMD 依靠台积电代工先英特尔 一步进入 7nm 制程,AMD 开始大幅抢夺英特尔份额。
纵观 AMD 对 Intel 冲击的全过程,首先需要说明生态方面由于具备 X86 的完整授权, AMD 不存在这方面的壁垒,那就需要关注技术在这个过程中的对比:第一阶段是自身技术 限制而进行的逆向工程跟随阶段,通过 15%左右的市场份额韬光养晦;第二阶段的领先, 是由于其推出了 64 位向下兼容的架构,是在长期技术积累上,抓住对手的失误,从策略上先发制人,实现短期反超;第三阶段受制于体量差距和对手策略的调整,再次落于下风; 第四阶段,凭借单核性能的大幅提升,以及对手制程瓶颈,再次实现反超。 AMD 作为成功案例给后来者的启示,我们认为是: 1)需要在技术上长期积累,垄断型厂商难免“自大”犯错,抓住对手战略部署上的失 误,实现短期的抢占市场; 2)后摩尔时代,领先者升级速度显著趋缓,制程瓶颈很可能成为常态,后来者可以抓 住这段时间,逐步缩小制程上的差距,加速产品迭代升级,从而减小性能差距; 3)作为通用 CPU,单核性能才是基础和关键,努力提升进程和工艺,提高单核性能 才是赶超的正确途径。
2.1 服务器 CPU 竞争首先是服务器架构竞争
服务器在万维网兴起以前,一般采用“主机—终端”模式来运行小型机、中型机、大 型机,大都采用 UNIX 操作系统,通过终端登录对主机进行操作。类似于现在服务器的远 程操作,这些在局域网里,通过终端进行操作的机器还不是现代的服务器,但在结构上与 现代服务器非常类似。
大型机——可靠的超高价值服务器。
大型机是上世纪六十年代发展起来的计算机系统,其稳定性和安全性在所有计算机系 统中是首屈一指的,但价格始终非常高。由于成本巨大,使用大型机系统的一般以政府、 银行、保险公司和大型制造企业为主。世界上首个大型机产品为 IBM 360,当时,IBM 这 款 System 360 的 CPU 中包含 19 套高速计算与内存组合,超过 40 种外部设备负责存储 信息并以双向方式将数据与该计算机进行交互,内置通信功能使 System 360 能够通过远 程终端加以操控,完全无需考虑距离因素。在相关程序的支持下,System 360 能够自行完 成活动调度、从而以一刻不停的方式处理计算任务,这就使得系统资源得到了充分利用。
IDC 对 IBM 大型主机的演进做了精要的概括:从孤立(siloed)到互联(connected), 再到具有变革能力(transformative)。在这个正在演进的第三阶段,在主机平台上进行 DevOps 和敏捷开发日益普遍,越来越多的企业将主机平台作为一个私有云,与其他私有 云及公有云交互。不少企业还在其主机上开发出重要的附加能力,比如利用微服务进行数 据分析。也有创新者开始在大型机中构建物联网功能,运行机器学习(ML)和区块链应用程 序……这样的主机将全面参与企业的数字化转型,成为其中不可或缺的一部分,因此被 IDC 称为“具有变革能力的主机“(transformative mainframe)。
小型机——DEC 和 SUN 的对决
DEC 是小型机的发明者,发明小型机之后,很长一段时间内是仅次于 IBM 的公司。1992 年开发了 RISC 芯片 Alpha 21064,并基于这种芯片开发出了 AXP 服务器和工作站,DEC 正式进入服务器领域。Alpha 21064 当时的性能非常强悍,浮点运算性能达到了每秒 4 亿 多次,而我国 1992 年研制成功的银河二巨型机运行速度才 10 亿次每秒。DEC 的致命劣势 是基于高性能的高成本,在与 SUN 公司的服务器竞争中居于下风。 SUN 公司生产的 SPARC 架构服务器价格比 DEC 的 Alpha 小型机要便宜很多,DEC 始终没有走廉价路线,长期在亏损边缘挣扎,最后于 1998 年被康柏电脑并购,而康柏电脑 则在 2001 年被惠普并购。惠普对 Alpha 服务器的支持到 2012 年结束。(报告来源:未来智库)
2.2 云化时代,X86 领先优势明显
服务器发展到云化阶段,对性能提出更高要求,主要的性能指标大致包括: 1)单颗处理器核心数一般在 8 核~64 核,20 核以上居多; 2)支持多路互连,两路、四路、八路等; 3)可靠性、稳定性要求高,常年无故障运行; 4)高端内存,支持 ECC 等可靠性要求; 5)功耗比较高,一般 100W 以上。
根据服务器的性能指标,服务器端 CPU 技术特点大致包括: 1)微结构复杂、先进,制造工艺先进,核心数多,单核及多核性能皆优异; 2)指令集功能齐全; 3)片上集成缓存容量大; 4)内存通道数多; 5)I/O 带宽高; 6)支持多处理器一致性互连; 7)可靠性高,RAS 功能丰富; 8)TDP 功耗较高。
由于 X86 处理器起步较早,生态环境较其他处理器具有明显优势,应用 X86 处理器 的服务器销售额占全部服务器销售额的比例约为 91%,销售量占比超过 97%,处于显著领 先的地位。根据 IDC 全球服务器跟踪报告,2020 年全年,全球 X86 服务器市场销售额为 826.5 亿美元,较 2019 年增长 3.31%;全球 X86 服务器市场销售量为 1180.2 万台,较 2019 年增长 1.82%。
服务器企业尝试将 ARM 架构使用于服务器端,重现 ARM 在移动终端中的成功,但 收效甚微。基于 X86 对于服务器芯片的长期绝对垄断,以及 ARM 在移动端的突出表现, 部分服务器企业开始尝试推出 ARM 的服务器,比较突出的包括 18 年亚马逊推出的 CPU Graviton 和华为 19 年基于鲲鹏的泰山服务器。 未来服务器市场,依然会是 X86 绝对领先,ARM 只能作为少量补充。必须明确,ARM 在移动端成功的核心是低功耗,这不是服务器的第一关注点。ARM 处理器是低功耗、小体 积的代表,很好地适应了移动端的应用场景,但服务器产品的核心还是性能和生态,上文 中也提到了对 CPU 的高技术要求。复杂指令集的特点就是包含了大量的指令,因此在这种 架构的 CPU 中进行程序设计更简单,每一条复杂或简单的任务都有对应的指令。
具体看,X86 因其长期耕耘,目前绝大多数服务器端的程序开发都是基于 X86 完成, 为了云端部署的简单稳定,开发者惯性选择该架构的云端服务器。在迁移成本方面,云端 部署过程中需要考虑操作系统内核、虚拟化技术、云存储、云安全等,各项分支都是由 X86 主导,若选用ARM 架构的服务器,在运维到应用各方面都要进行 ARM 指令集的交叉编译, 高成本且低效。因此,我们预计未来服务器市场还将延续 X86 绝对领先的局面,ARM 主 要作为一些边缘计算的补充。
国产 CPU 的“后发劣势”明显,在“十五”期间启动发展国产 CPU 的泰山计划,2006 年正式启动的“核高基专项”才让国产 CPU 快速发展。在国家支持下,孵化出鲲鹏、飞腾、 龙芯、兆芯、海光、申威等一批优质国产 CPU 公司。我们选取其中较为成熟的海光 CPU 为例,介绍 CPU 设计过程中的核心和关键,结合之前的回顾,以及对现有国产 CPU 的理 解,回答以下三个问题: 国产 CPU 有哪些路线?国产 CPU 短板在何处? 国产 CPU 每条路应该怎么走?
3.1 CPU 是如何设计的?
基本构成:一般来讲,CPU 根据不同的产品规格定义,需要在一块基板上封装 1 至 4 颗裸片。 裸片的内部结构非常复杂,主要功能模块包括处理器核心(Core)、片上网络、各类接 口控制器等;除硬件电路外,裸片中还集成了复杂的程序代码(“微码系统”)。
以海光 CPU 为例,各部分功能如下: 1)处理器核心。每颗“裸片”具有 8 个处理器核心(含高速缓存),不同规格的海光 CPU 包含 1 至 4 颗裸片,进而具有数量不等的处理器核心。处理器核心是 CPU 的关键的控制、 计算部件,决定了 CPU 最主要的技术特征。 2)片上网络。片上网络是 CPU 内部数据传输的通道,包括控制网络和数据网络。片 上网络的带宽、延时对多核处理器的性能影响较大。 3)接口控制器。不同的接口控制器用于连接 CPU 所搭载、控制的不同外部设备。例 如:内存控制器用于访问 DDRSDRAM 内存,PCIe 控制器用于连接 PCIe 设备,USB 控制器 用于访问 USB 设备,SATA 控制器用于读写 SATA 设备等。 4)微码系统。微码系统由微码程序和对应的执行硬件组成。通过微码程序的运行,将 复杂的 X86 指令翻译成相对简单、规整的微码指令。微码系统直接影响处理器的安全,包 括变更安全算法(国密密钥)、利用微码系统修复� 些安全漏洞、扩展安全指令集等。 5)HMI/xHMI 多片互联控制器。HMI/xHMI 具有高带宽、低延时特点,可以完成裸 片间和处理器间的高速互联,从而实现 MCM 和 Chiplet 的片上封装,以及双路服务器架 构设计。
以海光 CPU 为例,需要经过以下设计步骤: 1)架构设计。处理器系统架构设计包括处理器功能逻辑设计和微结构设计,对处理器 功能、性能和生态至关重要。 在架构设计环节中,功能逻辑设计是指基于对产品预期和产品定义,规划出处理器产 品的模块架构、功能逻辑,以及指令集、数据结构、接口协议等;微结构设计是规划出集 成电路裸片的具体实现方式,包括流水线设计、逻辑单元设计、高速缓存结构、片上网络、 接口控制器设计等。 2)电路设计。电路设计是将处理器芯片各个功能模块用硬件语言设计出来,形成可供 晶圆代工厂使用的电路版图。处理器核心的微结构精巧,流水线级数多,主频高,电路代 码设计复杂。 3)微码系统设计。微码系统设计包括微码软件编程、微码执行硬件研发。微码软件包 括微码程序、微码编译器和微码补丁。微码系统设计贯穿处理器设计全过程,通过微码补 丁形式还可以修复部分硬件设计缺陷。
4)安全模块设计。安全模块设计包括处理器安全架构、专用硬件、软件、密钥管理等, 贯穿处理器设计全过程,在处理器量产后仍需要为可能出现的安全漏洞提供及时、有效的 修复方案。 5)仿真模拟。仿真模拟是指利用专用软件、高性能仿真模拟器对处理器核心和电路设 计进行模拟验证。海光高端处理器电路规模大,必须使用仿真加速专用硬件来提高仿真模 拟的效率。 6)产品设计。产品设计根据终端应用需求,规划公司具体产品配置及内部构成。产品 设计过程还需要考虑基板开发、后端设计、工程样机系统设计、产品测试、测试板卡和工 具软件开发等工作。
7)流片工艺优化。晶圆代工厂基于公司提供的电路版图进一步设计出掩膜,然后经过 复杂的雕刻过程生产出裸片。公司流片工艺团队需要和公司芯片设计、晶圆代工厂工程团 队形成深度的技术互动,不断升级芯片雕刻工艺,验证流片工艺流程,提升晶圆制造良率。 流片工艺优化环节可分为流片工艺升级、晶圆加工流程验证、晶圆级测试等环节。 8)基板及封测工艺开发。公司将处理器封测工作委托给外部封测代工厂完成,但是基 板开发、封装工艺流程验证、测试程序开发等仍需要公司完成。 9)硅后验证。处理器完成封装以后,需要进行大量的测试工作,统称为硅后验证。硅 后验证工作量较大,需要进行工程样机系统设计、产品测试、测试板卡和工具软件开发等 大量支持产品市场应用的验证测试工作。
3.2 国产 CPU 各条路怎么样?
目前国产 CPU 的服务器主要应用于电信运营商、金融、互联网等领域,例如,电信运 营商云服务资源池系统支撑云业务应用,银行和证券公司查询、交易系统,互联网的搜索、 计算服务、存储等应用;国产 CPU 的工作站主要应用场景为工业设计和应用、图形图像处 理,例如 VR、AR 图形渲染场景,以及智能工厂数字孪生应用等。 当前,国产 CPU 公司根据使用的架构走出三条不同的道路:
1)X86 架构:兆芯、海光。此种模式属于 IP 内核授权的模式,目前是仅内核层级的 授权,优点是技术门槛低、性能起点高、没有生态壁垒,缺点是自主可控的程度低,且购 买授权的成本较高。以这条路线发展,不存在生态壁垒,可以借鉴本文 1.3 中 AMD 崛起 的路线和策略,在技术上通过不断迭代逐步缩小差距。但是这种购买授权的方式,没有从 根本上解决自主可控的需求,在中美关系不明朗的背景下,确实面临授权中断的风险,市 场上一些激进的声音甚至认为使用 X86 的不能称为“国产芯片”。
2)ARM 架构:飞腾、鲲鹏。此种模式为指令集架构授权,自主化程度相对较高,ARM 主要有三种授权等级:其中指令集层级授权等级最高,企业可以对 ARM 指令集进行改造以 实现自行设计处理器,此前海思、飞腾已经获得 ARMV8 永久授权,今年 4 月 Arm 确认Armv9 架构不受约束,华为海思可获授权。以这条路线发展,存在较高的技术门槛,ARM 架构目前在桌面和服务器端的生态远不如 X86,但是指令集架构的永久授权,一定程度上 满足了自主可控的需求,但是依然存在未来更新版本被断供的风险。
3)MIPS 等自主架构:龙芯、申威。此种模式是自主研制的指令集,高度自主可控, 但是技术门槛高,生态构建极其困难。以这条路线发展,最大的困境是生态上的建设,如 何在落后的情况下,建立起可靠可持续的生态,是重要课题。 CPU 的下游应用市场主要分为:政务及重点行业市场、企业级市场、消费级市场。其 中,政务及重点行业市场对安全性以及自主可控要求最高,同时对生态的要求相对最低, 是与国产 CPU 前期发展水平相匹配的,因此这部分市场是国产 CPU 成长的根基所在。未 来,随着产品性能不断优化,生态逐步趋于完善,企业级市场将为国产 CPU 提供巨大市场 空间。
基于目前国产 CPU 替代市场的主要特征,我们认为,使用 ARM 架构的国产 CPU, 将在短期内受益于重点领域信创市场的快速增长;使用自主架构的国产 CPU,生态建立需 要一定的时间,中长期看,有望实现党政及特殊领域的大面积甚至全面替代;使用 X86 架 构的产品,性能和生态显著较好,短期内可利用成本优势打开一部分企业市场,但长期看 受外部影响较大,存在较大的不确定性。
3.3 国产 CPU 到底弱在哪?
想要探讨国产 CPU 未来的走势,就必然要面对一个十分现实的问题:国产 CPU 到底 弱在哪里?我们认为,国产 CPU 与全球领先水平的差距主要概括为:性能差距、生态差距。 性能上,国产 CPU 存在明显劣势。
1、单核性能不行还是核数不够多?
目前国产 CPU 的关键问题还是在于单核的性能较弱。Intel 还在做 4 核产品的时候, 国内核高基计划就已经实现了 8 核产品的研制,但是整体性能完全劣后于 Intel 同期产品。
2、工艺不行还是设计能力不行?
目前国产 CPU 的主要差距在于设计能力上。以 Intel 和完全自主的龙芯对比,Intel 在 130nm 工艺就做到了主频 3.8G,而龙芯的 3A1000 在同等工艺和核数前提下,主频只有 1G,如果将 Intel 产品降到 1G,性能是龙芯的 5 倍。 纵向对比看,同样以龙芯为例,其第二代产品 3A2000 在没有提升主频的前提下,通 过设计能力的改进,性能提升了 2.5 倍;3A3000 提升至 28nm 制程后,主频提升至 1.5G, 性能提升 1.6 倍;3A4000 在原工艺基础上,通过设计提升性能 2 倍;3A5000 提升至 14nm 制程,性能提升 1.6 倍;目前在研的 3A6000,据龙芯介绍,其性能已经达到了 Intel 在 14nm 的性能水平。从纵向发展历程来看,相同工艺条件下,设计能力提升带来的产品性能提升 十分显著,在 fabless 模式下,设计能力的差距显得尤为重要。
3、产品性能完全决定用户体验? 产品性能是影响用户体验的重要因素,但是系统优化同样重要。例如,在 2010 年 iPad 就风靡全球,但当时的 CPU 性能只有 Intel 的 1/2 到 1/3 左右,但是用户体验和评价都很 好,就是得益于苹果的系统优化。而国产 CPU 由于积累不够,即使在产品性能已经能满足 某些重点领域信创的要求的情况下,用户体验依然比 Intel 差一些。
性能差距只是外在表现,我们认为造成这种差距的内因,主要有以下几点: 1、微架构设计能力存在显著差距。所谓微架构,即在指令集架构体系之内的一种结构 设计,是 CPU 内部晶体管的一种排列方式,属于指令集架构体系的框架之内,例如 Intel 的 Icelacke、Broadwell。Intel 和 AMD 不断更新微架构,实现性能的不断迭代提升,国 产 CPU 的微架构在乱序执行、高速缓存、多核互联等技术上,由于起步较晚,都与先进水 平有一定差距。
2、定制化水平差导致精细度不足。Intel 针对特定领域和客户,会采用高度定制化的 设计,例如人工设计版图、采用锁存器 Latch 替换触发器 flipflop、全定制设计关键单元等 方案。定制化的实现需要多年的技术积累和人力投入,目前国产 CPU 很难实现,基本还是 采用传统的 EDA 工具生成版图和做版图优化的方式,精细度远低于定制化产品。
3、使用通用 EDA 工具缺乏协同。Intel 等欧美大厂许多都有自研的 EDA 工具或拓展, 以及成熟的 flow,设计过程中出现的问题可以与 EDA 部门直接协同解决,显著提升了设计 效率和设计能力,不断拓展边界,而国产 CPU 厂商目前普遍采用的是外购的 EDA 工具, 缺少与设计工具的协同,且国产 EDA 工具竞争力较弱,这一环节也难以实现自主可控。
4、与 Foundry 配合不够密切。在生产模式上,Intel 是典型的 IDM 厂商,AMD 虽 然是 Fabless 厂商,但与之前分拆出去的 Global Foundries 保持密切联系,两者都能实现 设计与制造环节的密切配合与协同。国产 CPU 由于起步晚、规模小以及国内芯片制造能力 弱,都是 Fabless 模式,难以与 Foundry 实现密切配合,限制了产品技术发展的速度。
落后的软硬件生态系统是制约国产 CPU 发展的另一瓶颈。X86 是目前桌面和服务器领 域的绝对主流架构,所以选用 X86 架构的受影响最小,可以直接使用 Windows 系统及软 件,ARM 架构的生态在全球范围内逐渐完善,而使用自主架构的面临巨大挑战。 生态系统很重要的一点是能够吸引全球程序员共同参与的各类应用软件开发的盈利模 式、知识产权分享机制等制度安排。以龙芯自主研制的 LoongArch 架构为例,需要耗费大 量时间和人力开发编译器,芯片流片成功后,还需要移植 Linux 内核、Android 系统等, 后期系统的软件也涵盖了驱动层、中间层到应用层,还需要不断针对这种架构进行迭代优 化。前期即使大量投入,如果软件上适配和推广不足,销量受限,软件开发者便会激励不 足,用户更少,引起恶性循环,商业模式便会出现问题。
3.4 每条路线关键是什么?
X86:专注技术,师夷长技,形成自身迭代能力
对于使用 X86 架构的公司来说,基于良好的技术基础以及继承 X86 完整的生态,可以 通过模仿先进产品及技术路线,率先实现非关键领域的国产替代,并在此基础上尽快吸收 关键技术,形成自身的迭代能力。 以海光信息为例,AMD 仅提供技术授权以及针对技术授权的部分服务支持,不会提供 后续更新技术,相关技术面临迭代风险。海光按照协议和 AMD 同时在该技术授权的基础 上进行产品研发,在 2016 年推出的第一代典型 CPU 系海光 7185,与 AMD 基于该技术 的第一代产品 AMD EPYC 7551 有少许差距,但差距较小,不存在代际差异;19 年受到美 国商务部影响后,海光推出海光二号,并为适应国内用户使用需求,增加了国密算法等安 全增值功能,证明了公司已经完成了对 AMD 授权技术的消化吸收。海光三号成功流片、 海光四号完成了电路设计和性能模拟,证明了公司全面掌握了高端处理器设计技术,具备 了产品迭代研发能力。
ARM:短期内抓住行业机会,发展已获授权指令集
2021 年苹果发布了 M1 芯片,与以往选用 X86 架构不同,M1 芯片采用基于 Arm-ISA 的内部处理器和 CPU 微体系结构,是苹果首款针对 Mac 设计的 SoC,根据苹果的的宣传 材料,在 10W 的功耗限制下,M1 芯片可提供传统 X86 笔记本处理器 2 倍以上的 CPU 性 能。 苹果 M1 一经上市受到广泛关注,其性能也被用户认可。但苹果 M1 的成功,不足够 说明 ARM 在桌面和服务器端已经可以超越 X86。苹果 M1 性能的高水平的表现主要是基 于苹果微架构上的优势以及工艺上的领先。微架构方面,采用了“疯狂堆料”的方式,并 采用了台积电的 5nm 工艺。这部分的优势显著,并且在能耗方面显著优于 X86,至于类似 视频剪辑等功能,可以直接交给解码、编码的硬件单元完成,使用体验更佳,但是这种方 式的问题在于,成本过高,苹果可以用很高的整机利润去摊平这部分处理器成本,但是国 产 CPU 显然难以复制。(报告来源:未来智库)
自主指令集:产品性能+生态融合,协调步伐
除本身的性能要求需要符合用户基本需求外,生态融合也是需要同步跟进的关键点, 否则只能面向一些软件需求极低的下游,市场空间局限性大。破局之计以龙芯为例,自研 指令集 LoongArch 充分考虑了兼容需求,可以通过“指令系统创新+二进制翻译”的方式, 运行其他平台上的二进制应用程序,从而达到生态融合的目的。为支持芯片销售及应用, 龙芯还开发了基础版操作系统及浏览器、Java 虚拟机、基础库等重要基础软件,并以两种 方式免费提供给客户。
4.1 价:逐渐市场化
CPU 定价策略已经较为成熟:阶梯价格+项目特价。考虑到芯片行业的特点并参照国 际同行业领先芯片企业的定价模式,CPU 行业主要采用阶梯价格策略,接受针对项目的单 独特价申请。阶梯价格主要适用于服务器厂商客户的日常采购(根据采购数量区间阶梯变 动),特价一般用于战略级竞争项目(最主要)、产品适配导入项目、产品促销等。 以海光芯片为例,CPU 价格已经逐渐市场化。2018 年,公司研发的首款海光一号产 品刚刚面世,初期产量较小,研发适配工作量大,公司主要比照同行业领先厂商竞品价目 表的价格进行定价,定价策略较为保守,产品平均单价较高。2019 年下半年开始,公司形 成了阶梯价格与特价相结合的定价机制,并稳定执行至今,产品销售均价较 2018 年整体下 调。2020 年以后,全球芯片行业供应链相对紧张,原材料价格呈现上涨趋势,公司对新代 际产品较上一代产品定价有所上涨。
4.2 量:弹性极大
CPU 的下游应用市场主要分为:政务及重点行业市场、企业级市场、消费级市场。其 中,政务及重点行业市场对安全性以及自主可控要求最高,同时对生态的要求相对最低, 是与国产 CPU 前期发展水平相匹配的,因此这部分市场是国产 CPU 成长的根基所在。 测算 CPU 市场规模,实际应该分为:测算整体市场规模(可参考历史静态数据)、可 国产替代市场规模。从整机形态,可分为 PC、服务器两个方向。 整体静态市场,2021 年,根据 IDC 数据,全球 PC 出货近 3.5 亿台,全球服务器出货 超过 1300 万台。考虑国产 CPU 未来较长一段时间主要聚焦国内市场,国内出货量更有代 表性。
整体市场,PC CPU 需求超过 5000 万颗/年,服务器 CPU 需求约 800 万颗/年。根据 行业惯例,一台 PC 对应一颗 CPU,2021 年中国 PC 出货量超过 5000 万台,则整体 PC CPU 需求超过 5000 万颗。根据 IDC 数据,服务器市场超过 85%的服务器为 2 路服务器,即一 台服务器对应 2 颗 CPU,则中国区整体服务器 CPU 需求约为 800 万颗。假设 PC CPU 价 格为 1000 元/颗,服务器 CPU 为 8000 元/颗,则 PC CPU 市场规模超过 500 亿元,服务 器 CPU 静态市场规模约 640 亿元。
中短期看,确定性最高的是,可国产化市场规模。 国产 PC CPU 年化市场规模约为 200 亿元。考虑 PC 采购不同机构性质,分为核心替 代(公务员群体)、重点替代(事业编制群体)、逐步替代(国有企业群体)、可选替代 (一般企业工作人员),假设四类替代群体,稳定期后,国产 PC 采购比例分别为 80%、 60%、40%、10%。根据国际统计局数据,可得四类群体整体人员数量。假设单科 PC CPU 价格为 1000 元,则 PC CPU 整体规模为 1020 亿元。假设 PC 5 年完成折旧,则国产 PC CPU 年化市场规模约为 200 亿元。
国产服务器 CPU 静态市场规模约为 139 亿元。根据 IDC 服务器数据统计,可知党政、 通信、金融等重点行业 2021 年服务器出货量,假设党政、通信、金融、其他行业国产服务 器采购比例分别为 80%/40%/30%/10%,参照服务器 CPU 市场价格,假设服务器 CPU 价 格为 8000 元/颗,保守假设国产服务器全部为 2 路服务器(一台服务器配置 2 颗 CPU), 则国产服务器 CPU 年化市场规模约为 139 亿元。
国产服务器 CPU 动态市场规模超过 200 亿元。值得注意的是,拉长 10 年维度看,PC 市场整体出货量相对稳定,服务器市场出货量随数据量、云计算催化,长期依然是增量市 场。考虑以上测算仅为静态数据,若考虑动态空间,假设服务器市场未来 5 年维持复合 10% 增速,则 2026 年,国产服务器 CPU 市场规模将超过 200 亿元。
5.1 海光信息:国产 X86 CPU 最佳选择
海光信息为中科曙光子公司,主要产品包括海光通用处理器(CPU)和海光协处理器 (DCU)。海光 CPU 系列产品海光一号、海光二号已经实现商业化应用,海光三号完成 实验室验证,海光四号处于研发阶段;海光 DCU 系列产品深算一号已经实现商业化应用, 深算二号处于研发阶段。 海光信息产品核心优势在于,海光 CPU 系列产品兼容 X86 指令集以及国际上主流 操作系统和应用软件,性能优异,软硬件生态丰富,安全可靠,得到了国内用户的高度认 可,已经广泛应用于电信、金融、互联网、教育、交通等重要行业或领域。
5.2 龙芯中科:自主可控程度最高 CPU
龙芯中科主营业务为处理器及配套芯片的研制、销售及服务。区别于使用国外授权主 流 X86 和 ARM 架构的公司,龙芯从建立之初强调“自主可控”,最新产品 3A5000/3B5000 处理器是基于自研的 LoongArch 架构。公司目前已经全面掌握 CPU 指令系统、处理器 IP 核、操作系统等计算机核心技术,打造自主开放的软硬件生态和信息产业体系。龙芯中科 芯片产品在电子政务、能源、交通、金融、电信、教育等行业领域已获得广泛应用。 2020 年后信息化类芯片成为增长主要驱动力。公司 2021 年实现营业收入 12 亿元, 其中工控类芯片、信息化类芯片、解决方案分别占比 24.61%、54.71%、20.68%。从业务 占比变化看,2020 年开始信息化类芯片实现大幅度增长,主要系 3A4000 系列产品性能成 倍提升,对虚拟化、安全机制等方面的支持加强,更加符合目前已进入快速增长阶段的关 键信息基础设施领域的应用需求。
5.3 中国长城:飞腾扛旗 PK 体系 CPU
飞腾扛旗PK体系CPU。中国长城作为中国电子网络安全与信息化领域的专业子集团, 坚定扛起网信产业国家队、主力军、排头兵的职责。中国电子旗下两大子公司,中国软件 (麒麟操作系统)+中国长城(飞腾芯片),组成国产基础软硬件 PK 体系(对标 Win-tel), 飞腾芯片扛旗 PK 体系 CPU。 中国长城信创布局完善。除成功突破高端通用芯片(CPU),中国长城还拥有固件等 关键核心技术,形成“芯、端、云”完整生态链,孕育出依托于“飞腾+麒麟+安全+移动” 的网信产业生态模式,构建了覆盖核心关键软硬件领域的全链条网信技术和产业体系。
5.4 澜起科技:津逮服务器起量,CPU 格局分散受益者
澜起科技主营业务是为云计算和人工智能领域提供以芯片为基础的解决方案,目前主 要产品包括内存接口芯片、津逮服务器 CPU 以及混合安全内存模组。公司两大优势为:专注的业务模式和领先的技术水平。公司在内存接口芯片领域深耕十多年,成为全球可提供 从 DDR2 到 DDR5 内存全缓冲/半缓冲完整解决方案的主要供应商之一。2022 年,DDR5 内存开始放量,公司 2021 年底发布配套产品,2022 年成为重要增长驱动力。 澜起科技与英特尔及清华大学合作,研发出津逮系列服务器 CPU。基于津逮 CPU 及 澜起科技的混合安全内存模组而搭建的津逮服务器平台,实现了芯片级实时安全监控功能, 为云计算数据中心提供更为安全、可靠的运算平台。
(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)
精选报告来源:【未来智库】。未来智库 官方网站