找回密码
 注册
快捷导航
查看: 1803|回复: 1

竟然领先NVIDIA!Broadwell CPU/GPU架构预览

[复制链接] |自动提醒
阅读字号:

8073

回帖

84

积分

1678

资产值

至尊会员I Rank: 4Rank: 4Rank: 4Rank: 4

注册时间
2011-12-2
发表于 2014-8-12 20:53:42| 字数 767| - 中国–江西–抚州 电信 | 显示全部楼层 |阅读模式

  2006年进入酷睿时代之后,Intel就坚持(几乎)每年交替升级CPU架构和制造工艺,也就是广为熟知的Tick-Tock。

  Broadwell属于其中的Tick,也就是工艺升级、架构基本不变,明年的Skylake则是另一次Tock,工艺不变,架构革新。

Broadwell CPU/GPU架构预览:竟然领先NVIDIA!

  从这个角度上就可以知道,Broadwell CPU架构其实没什么好说的,也就是一些微调,不会看到明显变化,性能提升更是不要期望太高。

  事实上,这几年甚至连Tock都很不“称职”了,去年的Haswell CPU性能也就提升了不到10%,让很多人大失所望。

Broadwell CPU/GPU架构预览:竟然领先NVIDIA!

  Intel透露说,Broadwell IPC(每时钟周期指令数)会比Haswell提升大约5%,很类似Ivy Bridge 4-6%,当然了这是理论上的同频对比情况,实际表现还取决于频率变化、不同的应用环境。

  架构方面其实也有增强,首先就是更大的调度器和缓冲,可以更好地满足CPU核心需要。举例来说,乱序调度窗口增大了,可以记录更多指令,进而改进IPC。

  同时,L2 TLB入口也从1K提高到了1.5K,从而减少寻址转换失误。TLB的功能也得到了扩展,都有利于改进性能。

  分支预测器照例拎了出来,继续号称减少预测错误和不必要的内存操作。

  数学性能方面,乘法和除法都因为各自硬件的改进而有所增强,其中浮点乘法的指令延迟从5个周期降至3个周期,除法使用了更大的Radix-1024 10位除法器。

  此外还有加解密的深入改进,但不知道是否术语AES-NI或其他指令集。

  能效方面,Intel现在是异常看重。以前每提升1%的性能,就要多付出1%的功耗,也就是1:1,而现在Intel号称做到了2:1,也就是如果性能提升5%,功耗只会增加2.5%。

  电源栅极、设计优化这些涉及硬件底层的能效优化是每一代必需的,而且不仅适用于Core M,未来所有的Broadwell都具备。

8073

回帖

84

积分

1678

资产值

至尊会员I Rank: 4Rank: 4Rank: 4Rank: 4

注册时间
2011-12-2
 楼主| 发表于 2014-8-12 20:53:42| 字数 1,664| - 中国–江西–抚州 电信 | 显示全部楼层

竟然领先NVIDIA!Broadwell CPU/GPU架构预览

  【Core M GPU架构预览】

  如果说这些年Intel CPU架构意兴阑珊,GPU就是一直在大跃进了,已经到了足以威胁AMD APU的地位,而且凭借庞大的市场份额(天下三分有其二),势头那叫一个好。

  Ivy Bridge、Haswell上的GPU分别是第七代、七代半,Broadwell是在它们基础上的继续改进,但还不足以称之为第八代(Intel自己都没这么说),因为底层架构几乎完全相同的,只是在规模、性能、功能、技术上深入增强。

Broadwell CPU/GPU架构预览:竟然领先NVIDIA!

  API支持方面已经和NVIDIA、AMD处于同一档次,完全支持DX11.2(以及OpenGL 4.3),或者确切地说是Direct3D Feature Level 11_2,甚至还领先于NVIDIA,开普勒、麦克斯韦架构都仅支持11_0。11_2虽然改进不多,只有分块资源、预编译着色器头等细节,但至少在名义上,Intel走到了NVIDIA前边!

  下一步,Intel还会支持到DX12。

  计算方面,确认支持尚未公布的OpenCL 2.0,包括共享虚拟内存,大大提升计算性能。Intel虽然没有类似AMD HSA那样的可编程异构架构,但至少可以在Broadwell CPU/GPU之间直接共享复杂数据了,而不用来回拷贝。

  再深入一些,Intel其实还是在架构上做了调整的,增强了不同执行单元之间的平衡。

Broadwell CPU/GPU架构预览:竟然领先NVIDIA!

  Haswell-Y的核显是GT2,是单独一个区块(Slice),又可细分为两个子区块(Sub-Slice),后者是Intel核显最小的功能性单元,包括10个执行单元(着色器)、缓存、纹理/数据/媒体采样器等。

  Broadwell-Y将每个子区块里的执行单元减少到了8个,但是每个区块由三个子区块组成,也就是总计24个执行单元,比上代增加了20%。

  但影响并不是这么简单,相关的一级缓存、采样器也增加了。每个执行单元的采样器增加了25%,因此同频下的采样输出能力提升了50%。

  其实,现代PC GPU都在减少每个执行单元配备采样器的比例,Intel反而增加了,表明之前的架构这方面是有所不足。

  包含ROP、光栅器、部分三级缓存的后端有一些微架构改进,提升了像素和Z轴填充率,前端则增强了几何单元,从而提高几何输出能力。

  Intel这次没有宣传GPU性能提升了多少多少(很罕见)。结合上述变化,再考虑到14nm新工艺给发热、功耗留下的更大空间,还是可以期待一下的。

Broadwell CPU/GPU架构预览:竟然领先NVIDIA!

  说起功耗改进,新工艺并不是唯一,还有个杀招“Duty Cycle Control”(DCC),占空比控制。——占空比是电子技术术语,大意是脉冲中信号激活的时间比例,又称工作周期。

  这些年,Intel一直在努力改进待机功耗,但是晶体管运行需要一个最低电压,也就是阈值,所有到了一定程度,常规方法再怎么努力也是不可能继续降低的。

  Intel的解决方法很天才:既然不能继续降压,索性就直接关闭GPU。通过将GPU置于工作周期中,可以大大缩短运行时间,只有原先所需的1/8,这就完全绕过了电压阈值的问题。

  这一技术对应用、用户是透明的,无需干预。显示控制器与GPU时钟域分离并始终保持开启,因此无论GPU本身是否否关闭,都不影响显示输出。工作周期的控制通过GPU硬件、驱动程序联合进行。

  目前还不知道该技术是仅限于Broadwell-Y,还是整个Broadwell家族都有。

Broadwell CPU/GPU架构预览:竟然领先NVIDIA!

  最后说说多媒体与显示方面。因为架构方面的变化,视频质量引擎的输出能力也提升了一倍,QuickSync转码引擎同样有增强和改进。

  H.265会有一个混合解码器,支持硬件解码,但是能效没有H.264的高。这主要是因为开发完全固定功能的编码器需要很长时间,Broadwell上有些来不及,只能上这样的临时方案。事实上,NVIDIA麦克斯韦架构的H.265解码也与此类似。

  输出规格支持HDMI 1.4、DisplayPort 1.2、eDP 1.3a,最激动的是原生支持4K。其实呢,Haswell就已经支持4K,但是超低压的Haswell-Y上给砍掉了,这次Broadwell-Y没有再落伍,也给了苹果MacBook Air上视网膜屏的机会。

回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

Powered by Discuz! X3.5 © 2001-2023 Comsenz Inc

GMT+8, 2024-12-1 19:28 , Processed in 0.092763 second(s), 25 queries , Gzip On, OPcache On.

手机版|小黑屋|安卓客户端|iOS客户端|Archiver|备用网址1|备用网址2|联系我们|专门网

返回顶部