高通吧 关注:176,882贴子:4,461,072

单开一贴说一下马良910

只看楼主收藏回复

看到吧里出9000s的die shot了,就顺便说一下,也说一下一些一直存在的误区。


IP属地:广东来自Android客户端1楼2023-09-25 22:32回复
    你说就说别放这图啊,要不然帖子又没了


    IP属地:广东来自Android客户端2楼2023-09-25 22:35
    回复
      GPU标的基本上没问题,可以很明显的看到两个特点,一个是每组CU(这张图是这么标的,我一般会说core不会说cu),ALU TMU和rop在一起的,这是典型的TBR渲染结构在GPU设计上的物理表现,作为对比RDNA和N卡 他们的tex和SM CU是在一起的 ROP是单独作为一个集群的。
      第二个是中央调度器,四组CU中间围绕中央调度器分布,而且旁边就是2MB的SLC 而调度器只有1MB cache,但是面积要比2MB SLC大很多,这是典型的老一代的GPU设计思路,除了IMG在BXT开始的新的互联设计,老的GPU设计都是通过中央调度器统一调度的。


      IP属地:广东来自Android客户端3楼2023-09-25 22:37
      收起回复


        IP属地:山东来自Android客户端4楼2023-09-25 22:37
        回复
          看TMU和ROP的面积,你会发现比ALU集群面积大很多, ALU集群 SIMD16是确定的,但是大伙都被极客湾误导了,说是1024ALU 其实只有512 FP32 我不知道他们为什么说是1024ALU 但FP32性能表现其实就是512FP32 也许是把FP32 FP16一起算了,之前的高通GPU 也是这么在官方PPT上营销的,但我只说FP32 ALU的数量。
          你会发现TMU和ROP的面积太大了 比ALU集群面积大很多,这其实也是马良910在游戏表现上对比同样512ALU FP32的友商的GPU游戏表现好的原因,因为这两的规模更大,手机游戏其实在顶点上需求的计算性能不高,即便是原神,手机端也有大量的低模,导致游戏画面尤其人物上不够精致,所以其实更多卡在纹理采样和像素填充上。 这里再说一下安培架构的问题,FMAX2下游戏表现提升不高的主要原因其实是在TEX ROP的性能是,其实你如果仔细一点,会发现安培的游戏性能是严格对应TEX ROP的性能增长的,在nanite和mesh shader没有成为完整的游戏渲染管线之前,游戏表现抛去CPU APi的影响 其实主要看tex和rop的性能增长(除去光追)


          IP属地:广东来自Android客户端5楼2023-09-25 22:45
          回复
            5楼给我吞了? 吐了,


            IP属地:广东来自Android客户端6楼2023-09-25 22:46
            回复
              主要说的是马良910游戏表现要比友商同规模好是因为tmu和rop规模更大,安培卡其实游戏表现提升是严格对应tex rop的性能增长的。


              IP属地:广东来自Android客户端7楼2023-09-25 22:47
              收起回复
                没看出和高通还有mali有什么区别。


                IP属地:安徽来自Android客户端8楼2023-09-25 22:48
                回复
                  kurnal拆过9200和8g2,上面的gpu都是alu rop tmu堆在一起组成一个cu的。


                  IP属地:安徽来自Android客户端9楼2023-09-25 22:50
                  收起回复
                    这个一个GPU core有4个模块


                    IP属地:浙江10楼2023-09-25 22:50
                    回复
                      基带小了很多,isp大了很多


                      IP属地:广西来自Android客户端11楼2023-09-25 22:50
                      回复
                        最后要说的就是,不知道为啥被误导了,马良是512ALU 我只算FP32的,估计他们是FP32 FP16一起算了,之前安德鲁GPU也是这么算的,官方ppt的50%提升其实是FP32 FP16的数量和。 马良是SIMD16 有没有FP16 ALU不知道 图里看不出来。


                        IP属地:广东来自Android客户端12楼2023-09-25 22:51
                        收起回复



                          IP属地:广东来自Android客户端13楼2023-09-25 22:57
                          收起回复
                            一堆传统的需要中心调度器操作的任务都用各种master去调度了,只需要FW核心互联就够了,造就现在最高效率的GPU互联设计。


                            IP属地:广东来自Android客户端14楼2023-09-25 23:02
                            收起回复
                              也就是说马良还是有点拉稀


                              IP属地:浙江15楼2023-09-25 23:07
                              收起回复