欢迎光临GGAMen游戏资讯




时代的眼泪系列:Cyrix 的高效能超纯量处理器家族(下)

2024-12-28 214

在 20 世纪后期与 21 世纪初期,为了掩饰与 Intel 处理器之间尴尬的“时脉不平衡状态”,AMD 与 Cyrix 先后采用 Performance Rating(简称 P-Rating,虽然那个 经常认知为“Pentium”)为标示处理器性能位阶的行销手段,造成不少争议,被当时的连线 BBS 硬件讨论区、电脑玩家与电脑卖场“津津乐道”。

也该是掀开 PR 值神秘面纱的时候了。

“只会让自己的产品看起来比较差,并不会比较好”的 PR 值怎么定义的?

这是当年 PC Magazine“Inside Track”专栏对 PR 值的最毒舌评论,但就事后诸葛的角度来看,实也不失中肯。

Performance Rating 最早是由 AMDCyrixIBM(代工并以自有品牌销售 6×86)与 SGS-Thomson(代工 6×86)4 家厂商共同制订的效能评测基准与相关测试规范,并由 Micro Design ResourcesMDR,知名的 Microprocessor Report 发行公司)进行效能验证,并维护其测试环境的一致性与细节流程。

但 Cyrix 并非首家采用此行销手法的 Intel 竞争者,也不是第一间引进 PR 值的厂商。早在 1994 年,NexGen 就将其 Nx586 标上“Pxx”,如时脉 75MHz 是 P8083.3MHz 则是 P90

至于引进 PR 值,最早登记有案的是 AMD Am5x86-P75,象征时脉 133MHz 的 5×86 可匹敌 Pentium 75。后期 150MHz Am5x86-P75+,多出那个 Plus 则代表“超越”Pentium 75,这招后来也被 Cyrix 所采用,意谓他们的表现“青出于蓝胜于蓝”。

以下列举 MDR 提供给 Cyrix 的“理论基础”(列举 3 款 6×86 型号),你也可以注意到,即使限定在以整数运算为主的测试程式,6×86 的 PR 值也不代表保证胜过同等级的 Pentium,更遑论浮点运算了。

产品定价策略就变成以下的模样。

如果你是够细心的读者,一定会马上提出两个质问:

一、上篇不是提到 6×86 初期量产评估成本高达 340 美元?那这样卖一定亏本啊。而且晶粒面积 394mm²,比 Pentium Pro 不包含 L2 快取的核心部位 306mm² 还要大,产量不会有问题吗?

1996 年实际销售的 6×86,版本代号实为“M1RRevised)”,借由修改为第二世代的 0.6µ、5 层导线的新制程(如 IBM 用在制造 PowerPC 620 的 CMOS-5S),晶粒面积巨幅精简至 225mm² ,预估制造成本也降低到 105 美元,但仍不如使用 Intel P8520.5µ)的 PentiumP54C163mm²),更远不及 1995 年开始投入产线的 P8540.35µ)制程版本(P54CS90mm² )。

二、为何 Pentium 90 和 Pentium 100 的价格一样?不是时脉越高,价格也该等量齐观吗?Pentium 166 与 Pentium 133 和前款较低位阶的明显价差,也颇令人在意。答案很复杂也很简单:因为两者效能“有可能”几乎一样。这就要谈一下“外频”(系统总线时脉)这档事了。

Pentium 100 先后有“50MH×2”和“66MHz×1.5”,前者的外频比“60MHz×1.5”的 Pentium 90 还要低,系统总线带宽反而较低,有可能导致两者整体效能相当,同理可证,66MHz 外频的 Pentium 也会得到除了处理器本身时脉以外的额外优势,价格更高是合理的,但这多少造成消费者的困扰,包含当时的笔者。

大概是有鉴于在产品线内交互穿插不同外频,会造成定价策略的困绕,Cyrix 就坚壁清野,不让高时脉产品有较低的外频。至于 6×86 同时支援两种不同的系统总线爆发存取模式(Burst Mode),在此就不多谈。

这也就是为何迟至 1996 年 月 日上市、时脉 150MHz 的 6×86-PR200+,效能一开始就被“看好”的主因:6×86 只有 2 倍或 3 倍两种倍频,要嘛就是 50MMHz×3,要嘛就是 75MHz×2Cyrix 当然选择后者,但代价就使用者是要慎选芯片组与主板。

Cyrix PR 值最终发展如下,时脉 300MHz 的 M-II PR433 是其绝响。

在 K6 始乱终弃,在辉煌的 K7 / K8 时代又死灰复燃的 PR 

AMD 在 K6 初期曾引进“PR2”,比较的基准从 Pentium 升级到 Pentium II,但不知为何,很搞笑的跟处理器时脉“同步”,像 K6/PR2-166 的真实时脉,就真的是 166MHz,让 PR2 变成一个毫无意义的多余数字,过没多久,就束之高阁。

但在创造 AMD 历史高峰的 K7 与 K8 时代,AMD 在 Athlon XP 与 Athlon 64 等桌机产品线,重新启用 PR 值以对抗 Intel Pentium 4 那压倒性的高时脉。和过去唯一不同的是,这时的 AMD x86 处理器微架构以非昔日吴下阿蒙,逐渐具有整数浮点兼备的竞争力,让那时的 PR 值“看起来比较像真的,而且数字也比较大”。

然后随着 Intel 在 90nm 制程 Pentium 4Prescott”出大包,让 AMD 好一阵子在媒体评测把 Intel 电得吱吱叫,再加上 x86 处理器也跟着 IBM Power4 的脚步走上双核心与多核心化,结束了长达 10 年的时脉战争,PR 值也就功成身退,成为计算机发展史上被撕掉的一页。

企图以最少成本换取两倍效能的 6x86MXM2

前有持续强化中的 Pentium MMXP55C),后有即将降临桌机市场的 Pentium Pro 后代,AMD 因购并 NexGen 而得到的 K6,更是即将乱入的程咬金,Cyrix 势必要尽快推出 6×86 的后继产品,那看似换汤不换药的 6x86MXM2”,就要继续在 Intel 巨大制程优势的阴影下,争取“丰厚获利中的一小块肥肉”。

Cyrix 宣称 M2 可达到 M1 的“两倍效能”,但近两倍时脉的“最终型态”PR400285MHz)与 PR433300MHz),拖到了 1999 年 7 月才上市,Intel 早处于桌机主力从 Pentium II 转移至 Pentium III 的交接期,完全时不我与。两倍时脉是否代表真正的两倍效能,在此就不多论。

M2 相较于 M1,主要有以下几个改良点:

  • 4 倍容量的第一阶快取内存从 16kB 增加到 64kB,这可能是最立竿见影的帮助。
  • SIMD 指令集扩充支援前身为 NSPNative Signal Processing)的 Intel MMX 指令集,并加入 12 个 Cyrix 自订的 EMMIExtendted Multi-Media Instructions),MMX 与 EMMI 均由改良过的浮点运算单元处理,即使 MMX 本质上是借用浮点暂存器放资料的整数运算。
  • 改善 x86 指令集相容性6×86 缺少的指令,主要是 Intel 在 Pentium 新增的部分,像 CPUIDCMPXCHG8B,以及在 Pentium Pro 新定义的条件搬移指令(Conditional Move)、如 CMOV FCMOV FCOMI 等,都在 M2 得到补强。这对重视软件相容性的个人电脑市场来说,是重中之重。
  • 强化分支预测加倍 M1 的分支目标快取与分支历史表。
  • 改进内存位址转换效率想必读过操作系统教科书(像有名的“恐龙”书系列)的科班读者对“TLBTranslation Lookaside Buffer)”绝不陌生,这是进行位址转换时,用来记录实体位址与虚拟位址之间的对应关系、增强内存管理单元效率的小型快取内存。

Cyrix 在 TLB 大兴土木,改造为两层式快取结构,精简过的第一层有利提高时脉,拦截漏网之鱼的第二层则可提高整体命中率,并和 M1 的第一层相同,仅增加一个时脉周期的存取延迟。换言之,M2 比较像是放大 M1 原本的 TLB 后,再加上一个“L0”“抽乐透”。总之,根据 Cyrix 的估计,原先 M1 的 TLB 命中率约为 92%,而 M2 即使第一层没中乐透,第二层也有 99.6% 的“拦截率”。

不过整体而言,M2 实在有愧其“第二世代产品”的编号,可能连“1.5 代”都称不太上:

  • M2 的指令管线依旧“不动如山”,没变长也没变短,非循序指令引擎也纹风不动。
  • 关于浮点运算这个大罩门,Cyrix 稍微缩减了部分浮点指令的延迟,但杯水车薪,依旧没改变被 Intel 压着打的窘境。

坦白讲,M2 的改进幅度并没有比加大第一阶快取、导入和 Pentium Pro 相同的分支预测技术、增加指令管线深度的 Intel Pentium MMXP55C)高明到哪里去,更何况在 6x86MX 上市的 1997 年 5 月,Intel 还早了近一个月,在月初就投入了 P6 微架构投入桌机市场的首发 Pentium IIKlamath”,AMD K6 更在当年 4 月抢滩 x86 处理器战场,Cyrix 势必要有更激进的作为,才有继续瓜分市场“享受丰厚利润”的本钱。

也因此,Cyrix 同步进行了两个新核心的发展,具有管线化浮点运算单元、再度自行扩充 MMX 指令集的真 M2Cayenne”,与全新打造类似 P6 解耦式超纯量(Decoupled Superscalar)的 M3Jalapeno”,两者并附赠了更具野心的单芯片系统解决方案,也就是今日我们所熟悉、入门级处理器整合绘图核心的样貌,Cyrix 才是这方面真正的先驱者,而 1997 年的 MediaGX,则是 Cyrix 在这块人迹杳然的荒野,开出的第一枪。

因为 MediaGX 整合的 5×86 并非超纯量处理器,不在标题的“打击半径”内,日后另外撰文介绍整合绘图式 x86 处理器历史后,再深入探讨。

“痛改前非”的 M2 微架构完全体“Cayenne”:管线化浮点单元与 MMXFP 指令

Cyrix 自认“已足以跟 Pentium II 一较长短”而从 6x86MX 正名而来的 M-II,依然打不过 Intel Pentium II,追根究柢,还是卡死在浮点运算这个罩门,Cyrix 仍被迫开发“Cayenne”核心,也堪称是“完整版”的 M2

Cayenne 有 3 项主要改进:

  • 管线化的浮点运算及 MMX 执行单元原本 M16×86)与 M26x86MX, M-II)每个时脉周期只能发出一个浮点指令,并因未管线化的浮点执行单元,最快每两个时脉周期才能执行一个指令。

Cayenne 完全解除了这要命的枷锁,不但可完全管线化执行多数的简单浮点运算(双倍精确度乘法除外),每个时脉周期可发出两个浮点指令,更在单精确度浮点乘法上领先 Intel Pentium II。整体来说,彼此互有长短,但总算终结了 Cyrix 的浮点饥荒。

  • 支援 AMD 3D Now! 指令1990 年代末期,正是 3D 游戏准备起飞的酝酿期,但在 1999 年 月 31 日 nVidia 发表 GeForce 256NV10)并创造 GPU 一词之前,硬件支援的几何运算(Geometry)几乎都不存在于任何消费性绘图芯片,只能靠处理器的浮点运算器越俎代庖。Intel 的“老相好”AMD Cyrix 与电击参战的 Centaur,均有志一同的寄望针对 3D Now! 最佳化过的微软 DirectX,以加速 3D 游戏的几何运算。
  • 15 个专属 MMXFP 指令原本 MMX 是借用 x87 浮点暂存器进行 SIMD 整数运算,而 Cyrix 自行定义了将 MMX 延伸至浮点数的 MMXFP 指令,如一个 MMX 暂存器可存放两个 32 位元单精确度浮点数。当处理器时脉 250MHz 时,可达到 1G Flops 理论运算效能,并以牺牲掉部分 IEEE 754 浮点数相容性规范为代价,提供相较于 Pentium II 效率惊人的倒数与开根号倒数指令。MMXFP 指令亦可指定不同 MMX 暂存器中的一半元素,进行“聚集”与“分散”运算。

除了 MMXFP 之外,Cayenen 新增了 MPEG-1 与 H.323 压缩所需要的动态估测(Motion Estimation)指令,对熟悉视讯压缩演算的读者,想必并不陌生。

但当 1999 年 月“最可怕的竞争者”AMD K7 堂堂登场时,Pentium 平台的 Socket 7(或应该称之为 Super Socket 7)早已没有市场,M-II 正统继承人“JediSocket 7 的 Cayenne)”胎死腹中。

Cyrix 又历经被购并至国家半导体后、又被出售给 VIA 的动荡,Cayenne 迟至 2000 年初,才以 VIA Cyrix IIIJoshua”(约书亚)之名降临,无缘与最早设定的对手 Intel Pentium II 家族正面较量,并且 Cyrix 在 VIA 内部迅速被 Centaur 体系取而代之,独特的 MMXFP 指令也从此消失于众人的记忆中。

功败垂成的 Cayenne 核心 MediaGX 后继者:MXi

自从开辟“1,000 美元以下”低价位个人电脑,与迷你型笔记型电脑市场的 MediaGX 仗着低价优势,以 Compaq 的 Presario 2100 和 CTX EzBook V92C266 为起点,攻入 OEM 品牌的供应炼后,尝到甜头的 Cyrix 随即研发 Cayenne 核心的 MediaGX 后代“MXi”,企图巩固这得来不易的桥头堡,并试图扩大战果。既然 Cayenne 已经解除了 Cyrix 处理器的浮点运算瓶颈,结合硬件化的 3D 绘图引擎“打造终极游戏用处理器”,就成为 1997 年中期,策略彻底转向低价电脑市场的“Cyrix 之野望”。

严格说来,MXi 并非单芯片解决方案,和 MediaGX 的改良版 MediaGXm(改进制程,支援 MMX)一样,需要额外一颗南桥芯片,来提供完整的系统功能,像类比视讯输出的 RAMDAC 与 ISA 总线等。

Cyrix 并未透露太多其 3D 硬件引擎的技术细节,唯一比较有看头的是维持 AGP 相容性、又声称会比未来 AGP 4x 还快的“虚拟 AGP”界面,与摆明靠高时脉支撑效能。但看在其内建的内存控制器,仅能供给 2GB/s 的理论带宽,又缺乏第二阶快取内存“掩护”的分上,实在让人难以相信,这一点点带宽能够喂饱豺狼虎豹般的 3D 绘图,又要兼顾一般用途的效能。

1997 年 11 月,Cyrix 被国家半导体购并后,尽管缺乏方向,但 MXi 仍被继续发展,在 1998 年夏天还邀请台湾媒体至美国参访,展示高时脉版本 M-II 与 MXi,并大张旗鼓的宣传其雄心壮志,但 MXi 并没有像它的前代 MediaGX 一样好运、续留在国家半导体的 Geode 产品线、然后 2003 年 8 月变成 AMD 的一部分,在 1999 年 月 Cyrix 被 VIA 吃掉后,风云变色,马上惨遭腰斩,今日仅剩供后人凭吊的工程样品照片。

短命的 VIA Cyrix IIIJoshua”:Socket 370 的“Cayenne

Cyrix 体系的处理器,在 VIA 内并没有马上消失──虽然也仅为昙花一现。

2000 年初上市的 Cyrix IIIJoshua”(约书亚),是 Cayenne 核心第一个被实际应用的产品,相容 Intel 的 Socket 370 脚位,整合 256kB 第二阶快取内存,其区块置换策略并采用当时 Intel 竞争者阵营流行的互斥式(Exclusive)架构,第一阶和第二阶快取彼此之间没有重复的资料,以求最大的快取容量利用率。

但 VIA 似乎很不满意 Joshua 的晶粒面积、发热量与效能功耗比,很快的就被晶体管数量少一半的 Centaur 体系“Samuel”取而代之,最后发展重心逐步转向嵌入式应用的 VIA 处理器,全面转进 Centaur 体系,Cyrix 终于消失在历史的洪流,而今日仍存在的 AMD Geode LX 嵌入式处理器产品线,是仅存至今的 Cyrix 唯一血脉。

近似 Intel P6 的解耦式超纯量近梦幻微架构 M3Jalapeno

从未问世的 M3Jalapeno”是今日极少人知悉的“幻之处理器”,对其比较白话一点的描述,不外乎以下这句:

M3=Cyrix 体系的 P6+MediaGX 和 MXi 的市场定位+ATi Rage 128 等级的高时脉绘图核心+双通道 DRDRAMDirect Rambus DRAM)内存

  • Cyrix 体系的 P6M3 的指令管线不像其祖先 M1、M2“一条肠子通到底”,而是像 Intel P6 与 AMD K5 / K6 / K7 的解耦式超纯量(Decoupled Superscalar),解开了管线前端与后方执行单元的“耦合性”,“内宽外窄”,被解码的指令暂存在保留站,再被送入数量庞大的执行单元,便于打造“更有肚量、更能吸收持续灌入大量指令后的震荡(可想像数十个指令同时在处理器的肚子内“飞行”的样子)”的非循序执行引擎。

为了企求时脉压制 Intel 第三世代熟成品 P6Coppermine),在采取 11 阶管线的同时,Cyrix 也简化了 M3 的分支预测和暂存器更名机制。无独有偶,M3 也让 Cyrix 步上其竞争对手行之有年的“将复杂的 x86 指令转译为数个简单的类 RISC 微指令”这条不归路,接着就消失在世界的尽头了。

  • MediaGX 和 MXi 的市场定位恐怕是基于必须承认已无本钱跟 Intel AMD 正面硬碰的残酷现实,Cyrix 吃了秤陀铁了心,要完全转型,集中资源专心耕耘低价位电脑市场,所以有别于事后整并现有核心的 MediaGX5×86)与 MXiCayenne),M3 打从娘胎就是整合绘图核心的方案。
  • ATi Rage 128 等级的高时脉绘图核心Cyrix 没公布技术细节,但光仰仗高时脉,能否对抗产品问世之际,整合硬件几何运算单元的 GPU,实在令人存疑。
  • 双通道 DRDRAMDirect Rambus DRAM)内存这倒是 M3 最具野心的一环,不让内存带宽变成整合绘图方案的性能瓶颈,但看在日后 Intel 在引进 Rambus 惨遭滑铁卢的后见之明,也实无任何乐观的理由。

假使 M3 可顺利上市,届时跟 Intel 的“Timna”(整合 S3 Savage4 绘图芯片与 ICH2)正面对决,想必非常精彩。历史没有如果,也许假以时日,笔者能有机会好好介绍隐藏于黑历史的“幻之 x86 处理器”系谱,如果有读者想看。有可能吗?

盖棺论定:又一个被 Intel 研发资源与制程优势彻底压垮的挑战者

在 1993 年 Cyrix 首次公开 6×86 计划时,产品设计团队仅仅 20 人,同时期“后发先至”的 Intel Pentium Pro 计划却高达 450 人,更有一整票专精手工电路布线最佳化的“军队”和傲视世界的自有先进制程,全力压榨 Intel 处理器的时脉极限,注定 Cyrix 高效能超纯量 x86 处理器的荆棘之路。而短暂 VIA 时代的约书亚,也无力引领 Cyrix 的技术体系,抵达那“即使是小厂,只要些许市占率,即可掠取丰厚的利润”的应许之地。

假使 Cyrix 晚诞生个 20 年,在半导体业界制程集体撞墙,连晶圆代工业者都有机会紧咬 Intel 的今天,甚至从 ARM 指令集踏出第一步,是否会有截然不同的故事结局,就留给各位读者去思考了。

(首图来源:By Gona.eu (Own work) [GFDL or CC-BY-SA-3.0], via Wikimedia Commons)

延伸阅读:

  • 时代的眼泪系列:Cyrix 的高效能超纯量处理器家族(上)
2019-03-22 05:30:00

标签:   游戏头条 资讯头条 ggamen科技资讯 ggamen科技 ggamen科技资讯头条 科技资讯头条 ggamen游戏财经 新闻网 科技新闻网 科技新闻 ggamen ggamen游戏新闻网 科技新闻网 新闻网 ggamen游戏财经 科技资讯头条 ggamen科技资讯头条 ggamen科技资讯 资讯头条 游戏头条 ggamen ggamen游戏新闻网 科技新闻 新闻网 ggamen游戏财经 科技资讯头条 ggamen科技资讯头条 ggamen科技资讯 资讯头条 游戏头条
0