关于Vega架构的更多信息,以及Radeon Pro Vega 64/56
首页 > 观测 > 数码科技    作者:剧毒术士马文   2017年6月6日 21:47 星期二   热度:1965°   百度已收录 17条评论    
时间:2017-6-6 21:47   热度:1965° 

首先是昨天WWDC大会上发布的iMac Pro将搭载的Radeon Pro Vega,下面是Vega架构的新信息


QQ截图20170606170427.png


产品页介绍有两款

1款是Radeon Pro Vega 56,搭配8GB HBM2

更高端的为Radeon Pro Vega 64,搭配16GB HBM2


看到这里就多少有些明白了...这次是用CU数量来命名,不错的方法,简单易记


那么Radeon Pro Vega 56就会有3584SP

Radeon Pro Vega 64则采用完整Vega10,4096SP。



点击查看原图


关于性能数字,苹果提到了:11TFLOPS单精度,22TFLOPS半精度,显存带宽400GB/s,性能为目前iMac最强GPU的三倍


不清楚这里是按照哪款算的

1.如果是按照Vega 56计算

那么频率为1535MHz左右,这和Vega FE、Radeon Instinct MI25的频率都很接近




2.按照Vega64计算

频率就会有明显降低,为1342MHz左右


同时按照400GB/s计算,HBM2显存频率为1.56Gbps。


前代iMac最强GPU是Radeon R9 M395X,Tonga架构,2048SP,频率909MHz,搭配256bit GDDR5@5.46Gbps

单精度3.72TFLOPS,三倍差不多就11TFLOPS

有人可能会说3倍TFLOPS不等于3倍性能

还会说AMD的TFLOPS不等于NV的TFLOPS

这就要和下面的内容有关了

Vega上,AMD的TFLOPS和实际性能会比以往接近得多。






ShaderEngine是在第二代GCN被引入的。

包含了几何引擎、光栅/ROP和L1缓存


QQ截图20170606214246.png


点击查看原图
Tonga的架构图,可以看到4个SE以及具体组成

点击查看原图

GCN CU架构 图源:PCWATCH


在AMD前几代GCN架构中,高端一直都维持着4个ShaderEngine

即便到后来Fiji上4096SP之多,依然还是4个SE



点击查看原图



这是有原因的

在GCN设计之初,AMD就认为未来的游戏将会更偏向于计算,而不是几何

所以GCN更偏向于计算,而且对于HPC/GPGPU应用来说,增加SE会大幅增加额外面积和功耗


Hawaii(R9 290X)上4SE还算比较平衡,每个SE内有11CU


但到了Fiji,SP数量猛增至4096个,SE依然维持在4个 - 每个SE下就有16CU

这样的设计可以说不太平衡,甚至有些“畸形”。【个人看法】


img001.png

Fiji依然是4SE


点击查看原图

Fiji die shot


计算方面倒还好,8.6TFLOPS的数字很好看,OpenCL等计算应用也能比较有效的利用

普通用户比较关心的游戏方面,4个ShaderEngine,也就是只有4个几何引擎的瓶颈就十分明显了

前端只有1个几何引擎+光栅引擎,导致瓶颈

FuryX很多时候空有TFLOPS(理论性能),而实际性能不如低得多的NVIDIA GPU,大量的计算资源没有用上,SP处于闲置状态。


这也是目前GCN的普遍情况,TFLOPS比同等级的NVIDIA GPU高得多,实际性能却没什么差距【DX12有所改善


理论数据上Fiji并不差


但....





在Vega上,这样的情况将会有所改变。

Vega将从偏向计算转回到兼顾计算和几何的平衡架构


下面是Vega 10的“die shot”,AMD市场部管理 Scott Wasson说不是真正的die shot,而是Marketing


1496698191p5u5ixqkrx_1_2.gif

1496698191p5u5ixqkrx_1_3.gif



这种图在之前Polaris的官方白皮书中也出现过,和真正的die shot有些区别

但也给了我们很多信息。


点击查看原图

可以对照一下Polaris10,die shot来自reddit




点击查看原图

看此图建议将手机/屏幕/脖子旋转90度




可以看到这次Vega架构的改变,最明显的地方就是分成了8块,而不是以前的4块

可能Shader Engine从祖传的4个变成了8个,也就是每个SE内有8个NCU【只是推测】,这样的话每个SE内的NCU减半,大幅降低前端的瓶颈几何引擎也会增加到8个。

也可能依然保持4个SE,但管线会缩短,依然是为了更充分利用计算性能


Vega将会是一个更平衡的架构,以往GCN前端的瓶颈会大幅减少,理论性能【TFLOPS】能够得到更完全的释放



img002_guetzli.jpg

图中NCU之间的那道黑色的不知道是什么

如果是如图分为8个SE的话,几何性能有点太强



相比Fiji,Vega10要平衡的多得多



点击查看原图

改进的负载平衡



这些前端在原来基础上也有了很大改进

Vega新的几何管线通过引擎间更好的负载平衡和新的Primitive Shaders,带来了更高的每时钟输出(IPC),而开发者不需要对程序做任何改动。

AMD官方的数据是:Fury X上4个几何引擎每周期最多生成4个多边形,而Vega上的4个几何引擎能够生成11个,2.6倍的提升。


Primitive Shaders不需要开发者改动代码,工作应该就在AMD的驱动这边了

Vega翻倍的几何引擎带来的性能已经很强,如果还需要更多的性能,估计可以对游戏针对性优化

因为Vega设计需要考虑到的一点就是NVIDIA的Gameworks等游戏:这些游戏的很多功能/特效在A卡上会带来大量性能损失,造成瓶颈,这是NV的策略之一

而Vega就需要克服这些不利因素,所以有了大幅加强的几何引擎和性能,基于曲面细分的那些特效在Vega上性能会很好。


点击查看原图

点击查看原图

点击查看原图



总而言之,有了以上的各项改进,可以期待Vega能在游戏中带来与NVIDIA同等理论性能【TFLOPS】GPU相近的性能。




来源:Anandtech/PCWatch/Youtube@NerdTechGasm/AMD/Reddit/HardOCP

本站整理内容,转载请注明出处。


如果有错误请批评指正

二维码加载中...
本文作者:剧毒术士马文      文章标题: 关于Vega架构的更多信息,以及Radeon Pro Vega 64/56
本文地址:http://mykancolle.com/?post=2124
声明:若无注明,本文皆为“MoePC”原创,转载请保留文章出处。

WRITTEN BY

avatar
wangbaisen1990Google Chrome 40.0.2214.89Linux2017-06-07 03:01
imacpro上的vega理论上是不是可以用于笔记本
剧毒术士马文Google Chrome 58.0.3029.110Windows 102017-06-07 16:15
@wangbaisen1990:iMac用的500系的话官网写的就是Radeon Pro Mobile
但是Vega就不清楚了,Vega10可能太大,275W的TDP
Vega11还是有可能的
wangbaisen1990Google Chrome 40.0.2214.89Linux2017-06-07 22:13
@剧毒术士马文:如果大幅度降频的话会不会能塞进去
剧毒术士马文Google Chrome 58.0.3029.110Windows 102017-06-07 22:24
@wangbaisen1990:那为什么不用Polaris/Pascal/Vega11呢
FuryX系列就没上笔记本的
在amd看大门未知浏览器Iphone 10_2_1 like Mac OS X2017-06-08 23:18
@剧毒术士马文:这和友商的Max-Q设计差不多,先降核心电压再降频,芯片是纯电阻电路,按W=V平方除以R,七成功耗获得九成性能。580M才65w,也有八成桌面版性能
剧毒术士马文2017-06-09 00:29
@在amd看大门:HBM2散热,如果是G5还好说
而且Vega10的die size和GP102都差不多了
Vega11上笔记本会很容易
友商  gg(NV≠友商
MikiyaGoogle Chrome 58.0.3029.110Windows 102017-06-07 02:54
这么说VEGA不愁性能了?那为啥还遮遮掩掩的啊...
轮子妈Google Chrome 54.0.2840.85Linux2017-06-07 16:53
@Mikiya:产能。
另外Linux驱动没准备好。
Polaris那时候Linux用户也是开箱即用的,开源驱动已经就绪了。
青之淘SouGou Browser 2.XWindows 102017-06-07 01:54
有苹果这手笔
vega回本不愁
在amd看大门未知浏览器Iphone 10_2_1 like Mac OS X2017-06-07 00:30
按照anandtech讨论的结果,290X是这几年前后端搭配最合理的芯片,肥鸡纯粹是看不过980ti而强行给Hawaii加长了一截,又赶上amd首次做600mm大芯片结果太过臃肿。Vega现在倒是抱住了果子这条腿,出货量至少没肥鸡失败
theLastWishGoogle Chrome 58.0.3029.83Linux2017-06-07 03:41
@在amd看大门:前后端搭配最合理的没算上Pitcairn
SP效率秒掉老大哥Tahiti啊 同样都是最早的gcn
轮子妈Google Chrome 54.0.2840.85Linux2017-06-07 16:02
@theLastWish:7850是一代神卡。
Gtkperf这种纯2D测试7850拉着AMD全家老小一起A。
以Porsche之名Firefox 53.0Windows 102017-06-06 23:54
Vega目前不支援GDDR5/GDDR5X是最大失策,不然估計可以更早出貨跟NV的TITAN Xp競爭。當然想到Zen微架構也跳到今年才出貨,本身可用的開發資金就比較緊張也是挺無奈...
剧毒术士马文Google Chrome 58.0.3029.110Windows 102017-06-07 00:23
@以Porsche之名:Vega的HBCC也是很重要的一項特性,如果要支持G5/G5X就要新的IMC了
本身AMD的產品很好,但執行力......
以Porsche之名Firefox 53.0Windows 102017-06-07 00:39
@剧毒术士马文:最主要還不是缺錢...另外與技術無關的是,AMD的行銷能力確實要提升一下
gnattuGoogle Chrome 58.0.3029.110Windows 102017-06-06 19:45
AMD在过去的架构上过于注重运算性能了,相比几何和光栅,填充了数目惊人的流处理器。四个Shader的Fiji的每个管线都过长,使得运算任务很难充分填充每个Shader中的流处理器,而前端数目稀少(每个shader仅有一个)的几何和光栅则更加限制了它在游戏中的发挥。因此相较于NV,AMD需要更高的理论运算性能(TFlops)才能达到和NV同样水准的游戏帧数。而现在的八shader让每始终的几何运算能力直接翻了一倍,游戏中能更加接近他们理论的TFlops水准。这对于游戏玩家而言是个绝大好消息,因为至少不用担心delay半天就是个超频Fiji了。(祖传4Shader的原因应该是几何和光栅在HPC和GPGPU中都没有作用所以觉得可以不要)
剧毒术士马文Google Chrome 58.0.3029.110Windows 102017-06-06 21:52
@gnattu:已经补全内容

返回顶部    首页     管理   注册   
版权声明       pw:mykancolle.com或moepc.net (有时需加www.) 若被菊爆请留言补档
内容来源于网络,并不代表本站赞同其观点和对其真实性负责。
如涉及作品内容、版权和其它问题,请在30日内与本站联系,我们将在第一时间删除内容。
本站资源仅为个人学习测试使用,请在下载后24小时内删除,不得用于商业用途,否则后果自负,请支持正版!
illust:A-Channel/生徒会の一存 Foreign visitors, GoogleTranslate will help   sitemap