Blog Personal.

Ampere, Especulación, Nvidia, Opinión

Sobre los últimos rumores de las GeForce Ampere (21-06-2020)

Gracias al leaker Rogame hemos podido conocer nuevas especificaciones de la GeForce RTX 3080 Ti basada según los rumores en la versión recortada de la GA102-400.

Veamos:

Ayer, fui capaz de confirmar la existencia de 3 variantes de la GA102 que están siendo testeadas, cada una con una configuración de memoria distinta.

  • GA102 con 24GB de VRAM
  • GA102 con 12GB of VRAM
  • GA102 con 10GB of VRAM

Cosa que ya conociamos, en todo caso pienso que la GA102 con 10GB y por tanto con bus de 320 bits es una GPU distinta a las otras 2 con bus de 384 bits y no una versión recortada del otro. Tengo la hipotesis de que Nvidia llamaba a la versión con bus de 320 bits (10GB GDDR6) bajo el nombre de GA103 antes de convertirla en la GA102-200 en la nomenclatura, pero solo es una hipótesis.

Dichas variantes se alinean perfectamente con las filtraciones anteriores, tristemente, aún no tenemos ni idea sobre el rendimiento objetivo de dichas GPUs, variantes. Hoy voy a cambiar eso.

Quiero adelantar diciendo que no se cual de las variantes de Ampere esta siendo probada aquí pero creo que los números de rendimiento hablan por si mismos.

Así que mientras estaba comprobando los resultados de 3Dmark como es habitual he terminado en un resultado muy interesante de Time Spy. Un resultado privado con una puntuación global muy ata y algunos extraños números de velocidad de reloj.

  • Vendedor de la GPU : NVidia Corporation
  • Velocidad de reloj de la GPU : 1935MHz (Time solo informa de la velocidad de reloj durante el boost)
  • Velocidad de reloj de la memoria : 6000MHz

Estoy seguro que algunos de vosotros tenéis preguntas sobre la velocidad de reloj de la memoria. No concuerda con ninguna de las velocidades conocidas para la GDDR6 o la HBM2. Para contextualizar:

  • 14Gbps GDDR6 se informa como 1750MHz
  • 16Gbps GDDR6 se informa como 2000MHz
  • 2GT/s HBM2 se informa como 1000MHz

Desde mi expariencia, este tipo de extrañas velocidades de reloj son el resuiltado de un driver temprano/interno o de un nuevo tipo de memoria que aún es desconocido para el software de detección de 3Dmark.

El problema que tenemos es que la GDDR6X como memoria estándar no existe, se ha empezado a hablar de ella en los leaks pero no es un estandar de la JEDEC que este definido y si fuese un tipo de memoria distinto entonces Nvidia necesitaría crear controladores nuevos y se haría dependiente en cuanto a costes de la fabricación de este tipo de memoria hacía Samsung, si lo pensamos bien no parece un buen ejercició ya que aunque parezca que Nvidia puede colocar el precio que quiera porque hay gente dispuesta a pagar verdaderas burradas existe un limite.

Si la GDDR6X no es más que una maniobra de marketing para GDDR6 muy rápida… ¿No debería detectarla el 3DMark independientemente de la velocidad de reloj? Es algo muy extraño todo esto… ¿A que viene que el 3DMark hable de una memoria con un controlador de memoria 6000 Mhz que además tendría un consumo enorme por su velocidad de reloj?

La primera hipótesis que creo que es errónea al 100% es que Ampere utilice la nunca lanzada LC-HBM que Samsung presento hace unos años.

La LC-HBM que es una versión reducida y de menos coste de la HBM2 con 512 bits solamente en vez de 1024 bits por lo que la cantidad máxima de chips por pila pasaría a ser la mitad pero a cambio de que la interfaz fuese un 50% más rápida. ¿Es posible que Nvidia utiice dicha memoria? Sinceramente lo dudo. Aectualmente cada pozo de memoria HBM2 alcanza con 4 chips por pila y un bus de 1024 bits los 8GB de densidad por pila por lo que esto son 2GB de densidad por chip. Una configuración con un bus de 512 bits tendría unos 4GB por pila, descartando la versión de 10GB de VRAM pues esto significaría que una versión con 12GB tendría 3 pilas de LC-HBM.

Si miramos los controladores de memoria de la A100 veremos que son de 512 bits cada uno dado que tenemos dos controladores de memoria por pila HBM2, por lo que el este modelo la cantidad de controladores de memoria se reduciría de 12 a 3 solamente. ¿Con que ancho de banda? Pues lo que tiraría por tierra todo esto es que solo tendríamos un ancho de banda de 460.8 GB/s, el cual es demasiado bajo para una GPU de dicho calibre.

¿Que es lo que pienso? Bueno, realmente creo que es memoria GDDR6 pero a mayor velocidad, Samsung afirmo que tenia muestras de GDDR6 a 22Gbps y es una tontería lanzar un nuevo tipo de memoria si con la tecnología actual ya alcanzas esos anchos de banda. ¿Que es lo que creo? Que la GDDR6X solo tiene de X que son los modelos a velocidad de reloj más alta y es una maniobra de marketing puro y duro, es realmente, no existiría la memoria GDDR6X propiamente dicha y seria la GPU la que estaría engañando al 3DMark.

Lo que viene a continuación son los números de rendimiento, he compilado una tabla con las puntuaciones del time spy que nos pueden ayudar a tener una mejor imagen del resultado en cuestión.

Básicamente, esta variante desconocida de Ampere es:

  • Un 30.98% mejor que una RTX 2080 Ti Founders Edition
  • Un 21.07% mejor que una MSI RTX 2080 Ti Lightning Z
  • Un 22.14% mejor que una Nvidia Titan RTX
  • Un 8.30% mejor que el mejor resultado de Nvidia Titan V bajo LN2
  • Un 2,18% peor que el EVGA RTX 2080 Ti XC overclockeado de KINGPIN

Estos resultados son muy impresionantes pese a la velocidad de reloj inferior a la esperada.

Sobre la velocidad de reloj agrega lo siguiente:

Dejando a un lado la extraña velocidad de reloj de memoria, el boost en el reloj de la GPU a 1935MHz no es lo que mucha gente esperaba. No está tan lejos de las velocidades actuales del reloj Turing de 12 nm y solo genera más preguntas de las que responde. ¿Son ciertos los rumores de Samsung 8nm? ¿El chip GA102 es tan grande que los relojes no se puede ir mucho más allá? ¿O tal vez Nvidia apunta a una mejora de la eficiencia en primer lugar?

Esperemos que estas velocidades de reloj sean solo para una version temprana y que la velocidad de reloj real sea mucho más alta.

¿Que es lo que pienso? Creo que una Ampere es un Tick Tock de Turing con algunas mejoras (como el nuevo Tensor Core) y que dicha arquitectura esta limitada por ancho de banda por lo que Nvidia a la hora de diseñar Ampere ha optado por una memoria muy rápida en vez de una GPU muy rápida con un cuello de botella en la memoria que tendría mucho menos sentido. Es más, esto le da sentido a las densidades de 1GB por chip que aparecen, el motivo de ello es que la densidad significan más transistores de la RAM encendidos y por tanto mayor consumo y esos chips de memoria GDDR6X estarían al limite del consumo por lo que solo habría versiones de 1GB.

Por otro lado, Bill Dally ya comento que con el fin del escalado de Dennard, fenómeno que os comente en una entrada reciente…

El aumento teórico en cuanto a velocidad de reloj de los transistores sería este en el paradigma Post-Dennard.

En realidad la potencia del chip con un salto de nodo debería ser un 40% mejor pero en realidad…

… se quedaría un un 20% de mejora solamente. Es decir, es irreal pensar en altas velocidades de reloj y los que creían que con el salto a los 7nm Nvidia iba a aumentar enormemente la velocidad de reloj se auto-engañan. Es más, la necesidad de un tipo de memoria mucho más rápida hace que en el juego de suma cero por el consumo energético la memoria sea la que acabe ganando por preferencia y más cuando sabemos que es el actual ancho de banda. En todo caso pasar de los 1650 Mhz de Boost Clock a los 1935 Mhz no me parece poco salto y hemos de tener en cuenta que la nueva GPU tiene una mayor cantidad de unidades SM en su interior y si los rumores son ciertos pasaríamos de 72 SM a 82 SM en la RTX 3080 Ti.

Esto es todo, tenéis los comentarios de esta misma entrada para comentar y no olvideis que tenemos Discord.

5 2 votes
Article Rating
2 Comments
Oldest
Newest Most Voted
Inline Feedbacks
View all comments
Nitupensis

3dmark y también gpu-z, con gpu recién lanzadas o modelos aun en tiempo de prereviews, a veces da un fallo debido a que confunde los modo SDR, DDR y QDR, y tiende ha hacer el calculo sobre lo que conoce, e incluso en otras situaciones directamente no la detecta en absoluto. Por ejemplo es algo que pasaba cuando empezaron a salir gráficas gddr5x ya que estas ultimas permitían ser configuradas en modo QDR para que a una menor frecuencia base, se obtuviera una velocidad mayor, en vez de solo en modo DDR de las GDDR5, y asi obtener una velocidad… Read more »

Last edited 23 days ago by Nitupensis
Nicco

Tiene sentido, sería una forma de aumentar su rendimiento, pero reduciendo o manteniendo similar los consumos. Gddr5x fue casi una vista previa de algunas cosas que trae Gddr6.

2
0
Would love your thoughts, please comment.x
()
x