Blog Personal.

Especulación, Nvidia, Opinión

Comentando los últimos rumores sobre Ampere

Moore’s Law is Dead ha dejado ir algunos rumores y especulaciones acerca de lo que va a hacer la gama Ampere de Nvidia.

Este post no es para hablar de lo que va a ser la gama sino para comentar dichos rumores desde mi punto de vista por el hecho que creo que hay miga en ellos y hay cosas que veo importantes a comentar.

  • El punto de doblar la Cache L2 de la GPU tiene sentido si tenemos en cuenta que el consumo energético de la transacción de datos es menor cuanto menos alejado esta el dato, duplicando la densidad de la cache L2 lo que hacemos es aumentar las posibilidades de que los datos más cercanos no estén en la GDDR6.
  • El aumento en la velocidad de reloj deberíamos darlo por hecho con el paso a los 7nm.
  • Lo de doblar la cantidad de Tensor Cores por SM es algo que ya comente como posibilidad al observar las diapositivas de los Nvidia Orin en una entrada reciente. Esto significa que el rendimiento con DLSS 2.0 activado debería ser mejor.
  • Lo de los RT Cores lo comentare más adelante.
  • Lo de la Compresión de la RAM via Tensor Cores es algo que para mi es erroneo, creo que lo que existe es una compresión/descompresión de datos al vuelo entre los Tensor Cores y los registros y la Cache a los que se conectan, de esta manera pueden duplicar el ratio de Tensor Cores sin tener que duplicar los registros para ello. Pero no tiene nada que ver con la compresión de la RAM.
  • Con el añadido de los RT Cores y Tensor Cores adicionales respecto a Turing esta claro que no estamos ante la misma arquitectura ya que el SM/Compute Unit es lo que define la arquitectura y este ha sido modificado al duplicar la cantidad de Tensor Cores por SM.
  • Lo de que compite la misma arquitectura en HPC y Gaming solo tiene sentido si Nvidia va a hacer lo que hizo AMD con Vega 7nm (Vega 20) que es el utilizar el SIMD sobre registro en ALUs de 64 bits, de tal manera que en vez de tener 32 ALUs de 64 bits y 64 ALUs de 32 bits como núcleos CUDA tenemos 32 ALUs de 64 bits que se pueden desdoblar y funcionar como 64 ALUs de 32 bits. Esta es la única explicación que le veo para que HPC y Gaming se unifiquen en una sola gama pero no tiene porque ser así y pienso que la GA100 va a ser algo completamente aparte de las «GeForce» Ampere.
  • Lo que es llamado DLSS 3.0 no es más que DLSS 2.0 funcionando en Ampere, el hecho de tener el doble de Tensor Cores le permite realizar el escalado de 1080P a 2160P a la misma velocidad y calidad que Turing realiza el escalado de 1440P a 2160P.
  • Que los modelos GTX iban a desaparecer es algo que ya se daba por hecho desde hace tiempo.
  • Nvidia tenía planes para presentar GeForce Ampere en la Computex de Junio, es posible que veais las tarjetas de la gama GeForce RTX 30×0 antes de tiempo.
  • La política de lanzamiento de Nvidia por lo que se es de un chip de la gama RTX 30×0 por trimestre. No los van a presentar todos de golpe o si lo hacen el lanzamiento va a ser escalonado.
  • Por lo muy poco que se, ningún chip de la gama GeForce baja de los 256 bits de bus con la GDDR6.
  • GDDR6 16Gbps para toda la gama, 2GB por chip.

Bueno, por suerte Nvidia ya nos dio una idea con el mapa de ruta para el Nvidia Orin donde la GPU acompañante en la gama más alta de los Drive PX tiene una potencia de ¡800 TOPS! Esto lo desglosamos de la siguiente diapositiva.

La GPU parece ser el reemplazo de Volta en los Drive PX, por tanto hablamos de la GA100 que es el modelo para HPC.

Es decir, una GPU extremadamente grande con un memoria HBMn al lado y pensada para el mercado de la computación de alto rendimiento.

Los 800 TOPS en Int8 via Tensor Cores son 400 TFLOPS en FP16 en los mismos. Si el ratio FP16:FP32 (estos últimos en los «núcleos» CUDA) es de 16:1 entonces hablamos de una GPU de 25 TFLOPS en FP32, la velocidad de la que habla es mayor de 1900Mhz, pero no habla de 2Ghz, vamos a suponer los 1900 Mhz que dicen las diapositivas.

(25*10^12)/(1900*10^6)= 13157,9 operaciones por ciclo.

13157,9/128 operaciones en FP32 por ciclo= 102 SM.

Es una cifra que personalmente no me cuadra mucho por no decir casi nada, recordad que el chip GA100 por lo que sabemos por los benchmarks que de se filtraron hace unas semanas tiene unas 124 unidades SM activas pero la versión de prueba que se filtro en los benchmarks solo funcionaba a 1.1 Ghz.

A partir de la información de la diapositiva en el Tegra Orin y el Leak podemos saber la velocidad de reloj de la GA100.

(25*10^12)/(124*128)= 1575 Mhz.

Lo cual es una cifra que entra dentro de los posible pero no son los 1900 Mhz y personalmente no se de donde saca Moore’s Law is Dead esa velocidad de 1900 Mhz a estas alturas porque la velocidad que debería conocerse es la de la GA100. ¿Es posible que sea mayor que los 1575 Mhz? No lo se, pero basandome en dos fuentes de Nvidia y cruzandolas pues mi observación es esta.

El tema que quería dejar aparte es el de los RT Cores, estos son junto a las unidades de texturas los clientes de la Cache L1+Compartida.

Esto significa que el ancho de banda de la Cache L1 con sus clientes tiene que haber aumentado de nuevo. Nvidia ya lo duplico del paso de Pascal a Turing y es posible que lo vuelva a hacer de nuevo con tal de acomodar una mayor cantidad de RT Cores, el problema de duplicar la Cache L1 significa que todo el esquema de memoria en la parte inferior de la jerarquía se duplica, esto da una explicación a que haya el doble de Cache L2 respecto a Turing y por otro lado esto significa que también va a haber el doble de Cache L1, unos 192KB de Cache L1 para ser más exactos en vez de los 96KB de Turing.

El añadir más RT Cores significa que la parte en la que se realiza el calculo de la intersección se va a acelerar e ir más rápido, podrá hacer el trabajo más rápido o en su defecto hacer más trabajo en dicha parte en la misma cantidad de tiempo. Pero el aumentar los RT Cores no va a provocar que el rendimiento en lo que son los juegos no basados en el trazado de rayos aumente en esa proporción en todo el fotograma sino que lo hará la parte del pipeline donde actúan los RT Cores.

Esto es todo, tenéis el Discord y los comentarios de esta entrada para comentarla.

0 0 vote
Article Rating
3 Comments
Oldest
Newest Most Voted
Inline Feedbacks
View all comments
IntelCeleronMasterRace

Es muy violento esto de ser cierto, un salto tan grande como el de Maxwell a Pascal de nuevo? Oh si, oh si cachorra.

Una hipotetica 3050 con un rendimiento de una 2060Super tampoco estaria mal para la gama bajo consumo.

Set

Sobre los RT Core, tengo una duda, si nos basamos en esta tabla de Metro Exodus y sus diagrama de frame, siendo la Iluminación Global el efecto mas pesado del ray tracing, podemos observar que los RT core tienen un pico maximo de 23 Tflops de uso de los 80 Tflops del peak: Si Nvidia duplica RT cores en Ampere crees que veamos un escalado lineal??, me explico para renderizar ray Tracing hay dos face: – La parte de la interseccion de rayos (que lo hacen los RT core) – Y la parte de Shading/sombreado (que lo hacen los shaders… Read more »

Steven

Hola el aumento de cache creo que es por los tenso corra que son más y necesita datos o no funcionan