luckspirit 发表于 2014-4-11 22:41

硬知识:手机GPU各指标参数揭秘

<p>  高级图形处理器在进行推广时通常比较多个低级别性能指标。例如,Imagination PowerVR GPU比较常用的比较指标为GFLOPS (测量计算吞吐量) ,每秒三角形生成数量(测量几何吞吐量),每秒像素数填充和每秒纹理数(测量填充率) 。</p><p>  除了这些较为传统的指标,企业开始按照产品中所包含的内核数量来说明架构已经较为常见。尽管按照既定状况来说,内核数量的含义已经被GPU市场曲解。也就是说,这个词语具有延展性,经过一段时间这个词语在反映常见功能方面已经有所更新。我来说明内核数量的常见意义。</p><p><strong>  什么是内核?</strong></p><p>  这要依据实际情况而定。内核数量的意义在以前是表示处理器前端的数量。内核并不复杂,前端的作用是调度执行线程。几乎所有高级GPU都已经简化设计,在计算资源前端设置多个调度器和相关调度逻辑,执行预订的任务。</p><p>  每个调度器跟踪数个需要执行的线程,在单个时钟周期中运行单个程序的单一指令。单个指令指标的作用是在一组算资源上运行程序,不考虑线程数量或者计算资源的共享方式,这是内核的通常定义。</p><p>  但是,我们也用这个内核来说明Series5 SGX GPU的整个状况。例如在SGX544MP3中,共有SGX544MP3的3个完整例程—可以复用所有GPU资源,我们称之为MP3配置,或者叫3核 GPU。</p><p><strong>  多核的误区</strong></p><p>  因此,随着高级移动系统中CPU内核数量迅速增加, GPU厂商要表达的信息是GPU也是多核设计,我们的许多竞争对手将独立的ALU流水线视作内核以强调其优势。但这些ALU流水线不能实现完全独立的相互调度,这些流水线与SIMD模式中的流水线一样每个时钟周期运行同一指令。并未出现我们所指的独立前端或独立指令指针,但尽管如此市场依然称其为一个内核。</p><p>  我们按照同样的方式从基本的构建模块---统一着色器集群(Unified Shading Cluster,USC)到独立流水线来说明PowerVR Rogue,来看一下如何计算内核数量。</p><p><strong>  PowerVR Rogue USC</strong></p><p>  Rogue的架构是由多个模块构建而成,这些模块称为统一着色器集群,简称USC。我们扩展这个架构来满足客户对GPU的需求,以支持系统级芯片及专门的细分市场,我们将数个USC以及其他相关资源连接在一起后集成在整个GPU IP上。</p><p>  打开USC,您会发现用于分析数据并得出结果的是数个ALU流水线。我们并行设置这些流水线,每个USC设置16个流水线。这样设置的原因是,图像呈并行处理,其中多个相关的数据,通常是矢量或像素同时运行。事实上,高级像素着色的属性驱动相关像素是并行的,因此有必要同时运行这些高级像素。</p><p><strong>  标量SIMD执行和矢量低效</strong></p><p>  USC的关键属性是按照标量模式处理数据。也就是说对于给定的工作项目,例如一个象素,USC不是在同一时钟周期内的同一独立管道上同时执行红、绿、蓝和透明度的矢量。相反, USC在一个时钟周期内执行一个红色组件,接下来执行蓝色组件,以此类推,直到执行完所有组件。为实现矢量基准单位的峰值吞吐量,标量SIMD单元并行处理多个工作项目。例如,每个时钟周期内处理一个像素的4-wide矢量的峰值吞吐量相当于4-wide 标量SIMD单元,可在每个时钟周期内处理四个像素。</p><p align="center"><a href="http://img1.mydrivers.com/img/20140411/8628f25a390249f4b77674da1a0d358c.jpg" target="_blank"><img alt="硬知识:手机GPU各指标参数揭秘" src="http://www.ibmnb.com/attachments/2014/04/1280348_201404112238451HyVu.jpg" style="border-top: black 1px solid; border-right: black 1px solid; border-bottom: black 1px solid; border-left: black 1px solid"></a></p><p>  表面上看这两种方法的吞吐量相同。但是,高级GPU负载通常由使用许多不同数据宽度的数据组成。例如,通常颜色数据宽度为4 ( ARGB ),而纹理坐标的数据宽度通常为2 ( UV),还有许多标量实例( 1个组件)处理,如典型的光照计算一样。</p><p>  在光照计算中,如果数据处理没有填满整个矢量宽度时,就会浪费矢量处理器宝贵的计算资源。在标量架构中,正执行的运算采用一种运算类型,在同一时间运行一个组件,并行处理同一任务。例如着色处理中完全由标量处理组成,在4-wide矢量架构中执行25%的任务,而在标量SIMD架构中本应执行100%的任务。</p><p><strong>  多个低功耗ALU!</strong></p><p>  我们再来说说USC并行任务中的独立流水线。共有16个流水线,每个流水线内部实际上存在数个执行任务的ALU。即2个FP32 ALU,2个FP16 ALU,以及1个专用函数ALU 。</p><p>  为什么使用专用FP16 ALU?主要是为了节省功耗同时也是为了提高性能。与FP32 ALU相比,简化ALU逻辑复杂度可以较低功耗执行FP16指令组,同时可执行更多的运算,在每个时钟周期实现更高的吞吐量。稍后您就会明白。</p><p>  在高级图像渲染中以较低精度计算可能需要耗费较多时间,而APIs Rogue力求在所有通用图形中支持混合精度运算,其中包括Direct3D 11,以及更常见的OpenGL ES2和ES3 APIs。在嵌入式图形运算中没有构建混合精度计算流水线是个错误,原因是执行混合精度工作量会造成功率放大。</p><p><strong>  性能和功能</strong></p><p>  各个ALU的功能并不一样,我们来看一下每个ALU的作用,以便了解其性能:</p><p>  PowerVR Series6, Series6XT和Series6XE中的FP32 ALU能够在每个时钟周期执行2浮点运算。每个USC即每个时钟周期的64 FLOP峰值。</p><p align="center"><a href="http://img1.mydrivers.com/img/20140411/fc163e89df9d4fb79b2ab74bcbf31589.jpg" target="_blank"><img alt="硬知识:手机GPU各指标参数揭秘" src="http://www.ibmnb.com/attachments/2014/04/1280348_201404112238452gPsA.jpg" style="border-top: black 1px solid; border-right: black 1px solid; border-bottom: black 1px solid; border-left: black 1px solid"></a></p><p><strong>  PowerVR Series6 GPU内共有最多8个统一着色集群( USC )</strong></p><p>  PowerVR Series6 GPU中的FP16 ALU能够在能够在每个时钟周期执行最高3浮点运算,我们在Series6XE和Series6XT 改进了FP16 ALU可在每个时钟周期执行最高4浮点运算。按照不同的产品和系列,每个USC在每个时钟周期执行高达128浮点运算。升级型Series6XE和Series6XT更为灵活,执行流水线部分运算的编译器更为容易。</p><p align="center"><a href="http://img1.mydrivers.com/img/20140411/895afeced43249ed8745e31cb5bc9d06.jpg" target="_blank"><img alt="硬知识:手机GPU各指标参数揭秘" src="http://www.ibmnb.com/attachments/2014/04/1280348_2014041122384534Jc7.jpg" style="border-top: black 1px solid; border-right: black 1px solid; border-bottom: black 1px solid; border-left: black 1px solid"></a></p><p><strong>  PowerVR Series6XT GPU内共有最多8个Unified Shading Clusters( USC )</strong></p><p>  最后来说一下具有专用功能的ALU,ALU可处理更复杂的算法和三角运算,如正弦、余弦、对数、倒数和亲和数、标量运算。按照这些运算的性质,设置了ALU输出精度和性能。</p><p><strong>  增强ALU内核配置</strong></p><p>  现在,我已经说明从构建USC块到利用16个并行管道执行任务来说明Rogue计算架构,各个管道有较大的专用计算资源,我们按照竞争对手的方式来说明内核。每个USC包括:32 FP32 ALU内核,高达64个FP16 ALU内核、16 个USC专用函数ALU内核。</p><p>  按照同样的方式将Rogue与市场竞争产品比对,ALU内核这个术语很重要,我们希望大家尽可能按这条思路来解释内核。</p><p>  最后,请记住,Imagination根据不同的产品Series6, Series6XT和Series6XE设置1对多的USC。以下为两个实例:</p><p>  PowerVR G6230: 两个Series6 USC-64 FP32 ALU内核,每个时钟周期执行高达128 FLOP – 64 FP16 ALU 内核,每个时钟周期执行高达192 FLOP。也就是按照600MHz的频率执行高达115.2 FP16 GFLOPS及高达76.8 FP32 GFLOPS。</p><p align="center"><a href="http://img1.mydrivers.com/img/20140411/ffa5a2ec2e9b406aadc178dceaff4c71.jpg" target="_blank"><img alt="硬知识:手机GPU各指标参数揭秘" src="http://www.ibmnb.com/attachments/2014/04/1280348_2014041122384546nEL.jpg" style="border-top: black 1px solid; border-right: black 1px solid; border-bottom: black 1px solid; border-left: black 1px solid"></a></p><p>  PowerVR GX6650: 六个Series6XT USC-192 FP32 ALU内核,每个时钟周期执行高达384 FLOP –384FP16 ALU 内核,每个时钟周期执行高达786 FLOP。也就是按照600MHz的频率执行高达460.8FP16 GFLOPS及高达230.4 FP32 GFLOPS。</p><div align="center"><a href="http://img1.mydrivers.com/img/20140411/ab97aac2109644f88410eb7293b09877.jpg" target="_blank"><img alt="硬知识:手机GPU各指标参数揭秘" src="http://www.ibmnb.com/attachments/2014/04/1280348_2014041122384550mps.jpg" style="border-top: black 1px solid; border-right: black 1px solid; border-bottom: black 1px solid; border-left: black 1px solid"></a><br>这才是真正的内核比较参数!                                                                                               
                       
                       
                        </div>
页: [1]
查看完整版本: 硬知识:手机GPU各指标参数揭秘