Blog Personal.

Ampere, Deep Learning, GeForce, Nvidia

RTX 30×0 (III): DLSS y Tensor Cores.

El siguiente punto son los Tensor Cores, son los mismos que el de la A100 (tercera generación) y tienen por tanto el doble de capacidad de cálculo que los Tensor Cores de Turing y Volta.

De cara al DLSS 2.0 esto es importante porque resulta en una mejora considerable respecto a Turing ya que permiten realizar el DLSS en la mitad de tiempo o menos.

El tiempo en realizar el DLSS 2.0 en las Turing es tan bajo que duplicar la capacidad para el DLSS 2.0 en Ampere significa ganar 1ms de más de media, Por ejemplo, si el DLSS 2.0 a 4K en Turing costaba 1.5ms para una RTX 2080 Ti para el 4K en Ampere ahora esa diferencia de menos de 1ms le va a permitir a la GeForce Ampere equivalente realizar la escena a 4K con la misma soltura que la RTX 2080 Ti hace una la escena a 1440p. Es solo un milisegundo de ventaja de media pero la diferencia esta en sacar una imagen a 2160p (4K) en Ampere con la misma soltura que Turing sacaba una a 1440p con DLSS 2.0.

Esto nos permite renderizar internamente a menos resolución, lo que significa que la tasa de fotogramas aumenta y directamente la Killer App de Nvidia frente a AMD ya que ni RDNA2 tiene contrapartida frente a esto y esto lo sabemos por el hardware de las consolas de videojuegos.

Por lo que ahora mismo los fans de AMD deben estar…

Y la propia AMD…

Esto ya sabiamos que iba a ocurrir, pero si le sumamos lo del nuevo RT Core y los cambios en la cantidad de ALUs en FP32 entonces tenemos a una AMD lanzando su «Turing» unos dos años después que Nvidia y no hemos de olvidarnos que el mayor rival de Nvidia es la propia Nvidia y necesitaban sacar algo que dejase a Turing en entredicho. Siempre he dicho que AMD va dos años por detrás, RDNA1 es una AMD Pascal y RDNA2 será una AMD Turing por lo que olvidaos por completo que RDNA2 le plante cara a Nvidia, eso si, AMD se verá forzada de nuevo a vender más barato y obtener con ello menos margenes en consecuencia y es el pez que se muerde la cola de manera continua.

Si hay un motivo por el cual en esta partida de ajedrez AMD aún no anuncia «Big Navi» es porque sabe que en ciertos segmentos de precio el quedar segundo es la muerte absoluta. El DLSS 2.0 en Turing y posteriormente en Ampere es un problema porque Nvidia tiene cartera suficiente como para convencer a los estudios de desarrollo en implementar el DLSS en sus juegos y ganarle la partida a AMD. Al fin y al cabo a efectos practicos lo que se ve es que la GPU de Nvidia con una resolución de salida de la imagen obtiene una tasa de fotogramas más alta y/o una calidad visual superior gracias a que internamente la GPU no esta forzada a renderizar en nativo.

Ayer estuve pensando el motivo por el cual AMD no presenta oficialmente la «Big Navi» y es que el DLSS 2.0 de Turing la dejo muy mal y ahora con Ampere y su capacidad aumentada es el golpe final. En AMD se deben estar planteando todavía si lanzar esa Big Navi con 84 CUs de la que hablan los rumores aka Navi 21. Y no porque la tarjeta sea mala sino porque será enviada a un sector del mercado donde la exigencia del público es tal que el perdedor es completamente destruido sin contemplaciones. ¿Que es lo que creo que va a hacer AMD? Pues van a repetir lo de la RX 5700 pero lanzando una tarjeta a $400 basada seguramente en una GPU RDNA 2 de 64 CUs/32 WGP a nivel físico, posiblemente con un bus de memoria de 320 bits y siendo la GPU una versión vitaminada de la de Xbox Series X y PS5.

AMD iba a presentar RDNA 2/Big Navi en la Computex de Junio y pese a la cancelación de esta ellos han tenido tiempo para presentarla. Lo único que se me ocurre es que hace unos meses en AMD probaran la Big Navi frente a Turing con el DLSS 2.0 y vieran el problema que tenían delante y con Ampere a la vuelta de la esquina pues…

Lo único que se me ocurre es que AMD haya decidido retrasar el diseño para implementar las mismas unidades matriciales/Tensor Cores que han implementado en CDNA dentro de las CUs de RDNA2 para ser minimamente competitivos ya que es importante. El hecho de no tener unidades del tipo Tensor Core para poder implementar algoritmos del estilo DLSS 2.0 y otros de los que Nvidia esta ganando ventaja es una enorme desventaja para AMD pero no ahora sino también de cara al futuro y le cierra muchas puertas a mercados en los que Nvidia se esta asentando sin problemas, no solo en el mercado de los sistemas domésticos sino también en mercados profesionales donde AMD podría estar.

¿Queréis un ejemplo claro? El trazado de rayos puro y duro (y aquí no hablo del utilizado en los juegos) requiere una gran cantidad de muestras por pixel con tal de reducir el ruido generado por la escena pero existen técnicas de denoising (noise es ruido e inglés) que a través de algoritmos de IA eliminan el ruido de la escena y permiten renderizar escenas con total claridad con muchas menos muestras por lo que es una aceleración considerable en la velocidad del renderizado permitiendo tener fotogramas vía trazado de rayos en una porción del tiempo original

ya que no necesitamos tanta potencia de calculo pero la contrapartida es que se requiere una estructura para la IA realmente muy potente y poder renderizar con una cantidad de muestras minimas para poder implementarlo. Si no tenemos esa estructura de IA ya tenemos un problema enorme ya que vamos a necesitar una potencia mucho mayor y por tanto un mayor coste y consumo energético en total. AMD tiene un montón de patentes Arrays Sistolicos/Tensor Cores pero cuando les preguntas por algo con cara y ojos pues…

Se supone que CDNA va a tener esas unidades pero CDNA no es una GPU para gaming, ni tan siquiera puede renderizar nada. ¿Como es que AMD que va dos años por detrás no le dio por implementar el equivalente al menos a los Tensor Cores en RDNA 2? La victoria de Nvidia no es absoluta por la presentación de Ampere de ayer, es absoluta porque sin Tensor Cores no hay algo como el DLSS 2.0, la victoria sobre RDNA2 la obtuvo Turing hace unos meses y Ampere esta paseandose en el desfile de la victoria en estos momentos sin haber sido lanzada.

El video es propaganda de Nvidia, pero la ventaja del DLSS es tal que en algunos casos permite duplicar la tasa de fotogramas respecto a su no aplicación bajo la misma resolución de salida es una Killer App lo suficientemente potente para forzar a AMD a retirarse o a jugar a un escenario con total desventaja, lo cual es el equivalente a estas alturas al suicidio.

Esto es todo, tenéis los comentarios de esta misma entrada para comentar y no olvideis que tenemos Discord.

4.6 5 votes
Article Rating
12 Comments
Oldest
Newest Most Voted
Inline Feedbacks
View all comments
Dani

Si el DLSS 2.0 lo soportaran muchos juegos sería un factor a tener en cuenta, pero es una pequeña minoría (muy pequeña de momento).

Nitupensis

Por lo que decían DLSS 3.0 traerá cambios muy importantes incluso de cara a desarrollo, ya que no requerira que los estudios realicen muestreos previos en las Saturn V para sacar el algoritmo para que funcione DLSS, DLSS 3.0 pasaria a poder funcionar en todos los juegos que soporten TAA, aunque continuara requiriendo que los estudios de desarrollo den compatibilidad a sus juegos para el nuevo DLSS, pero los cambios que requerirá son menos intrusivos por parte de nvidia que antes. De momento de ser cierto DLSS 3.0 parece que se lo guardan bajo la manga ante lo que pueda… Read more »

Last edited 27 days ago by Nitupensis
Dani

En teoría ¿se podría aplicar un algoritmo de escalado IA sin la intervención del desarrollador del juego? Es decir, el juego se renderiza, y la API (o lo que sea) en vez de llevar la imagen al controlador de pantalla, lo escala via IA usando la GPU (Tensor Cores o CU) y después lleva la imagen escalada al controlador de pantalla. Entiendo que en una consola, al ser una plataforma cerrada, no se podría, pues el tiempo de renderizado está controlado hasta el más mínimo detalle; en una plataforma abierta no, el tiempo de renderizado está también abierto y da… Read more »

Nitupensis

ni idea, pero se indica que aunque se simplifica el proceso de adopcion de DLSS 3.0 siendo menos intrusivo y mas sencillo de implementar, seguira requiriendo intervencion de los desarrolladores para que los juegos sean compatibles. Es que no es algo que sea aun un estandard para la industria.

Dillitale

La gran ventaja de nvidia va mas allá del HW, en computación de IA están muy por delante de cualquier otro competidor. Turing fué un demostrador, con ampere la gran mayoría de empresas se va a querer subir al carro del dlss. Ademas aún no se ha hablado del rumoreado dlss3.0, lo que tiene que hacer nvidia (ya estará con ello, seguro) es proporcionar herramientas para que las desarrolladoras de videojuegos lo puedan añadir con facilidad.

Nitupensis

Urian parece que aquella información de que mas adelante saldran graficas Ampere con el doble de memoria podría ser cierta :), al menos lenovo a filtrado la existencia de una RTX3070ti con 16gb de vram. https://videocardz.com/newz/nvidia-geforce-rtx-3070-ti-spotted-with-16gb-gddr6-memory estas gráficas con mas vram si terminan saliendo como parece van a ser muy golosas para los que se dedican a tareas de IA con las actuales turing de 8gb/11gb y que no se podiamos permitirnos el costo de las quadro y titan RTX por precio, en tareas de IA siempre es muy limitante para los proyectos la memoria disponible en la grafica, tener… Read more »

Last edited 27 days ago by Nitupensis
Nitupensis

pues parece que podria terminar siendo cierto, en las ultimas horas se han filtrado listados de msi y gigabyte mostrando versiones TI de la 3070 y 3080 con el doble de Vram.

Dani

A si alguien puede especular (un poquito más) sobre Big Navi:

El SoC de XsX es de 360 mm2, la GPU ocupa un 47% de espacio, o sea, 169,2 mm2. Si hubiera una versión de Big Navi que fuera el doble que la XsX, se iría a 340 mm2 más controladores y demás elementos, pero no subiría más allá de los 500 mm2 ¿o creéis que sería más?

Si Nvidia puede hacer chips monolíticos de más 600 mm2, AMD podría hacerlos de 500, espero que se anime.

Nitupensis

Urian por si lo quieres aqui estan la dispositivas de la presentacion de los tiger lake de bajo consumo con graficos Xe (los que salen en contra de los ryzen 4000u de bajo consumo para portatiles), la presentación de intel la realizara en una media hora, por si lees este post a tiempo y quieres verla en directo ;).

https://es.scribd.com/document/474551355/Intel-Blueprint-Series-11th-Gen-Intel-Core-Processors-pdf

Last edited 27 days ago by Nitupensis
steven

Creo que no ponen algo parecido porque requiere mucha programación los algoritmos de aprendizaje y controladores mejores más rápido el lanzamiento.

Darko

INSIDE XBXO SERIES X – DF Machine learning is a feature we’ve discussed in the past, most notably with Nvidia’s Turing architecture and the firm’s DLSS AI upscaling. The RDNA 2 architecture used in Series X does not have tensor core equivalents, but Microsoft and AMD have come up with a novel, efficient solution based on the standard shader cores. With over 12 teraflops of FP32 compute, RDNA 2 also allows for double that with FP16 (yes, rapid-packed math is back). However, machine learning workloads often use much lower precision than that, so the RDNA 2 shaders were adapted still… Read more »

Over

No pierdas la perspectiva. Sigue siendo bajar sólo 1 ms componiendo 4k.

Se trata de la potencia general/precio con la 3070 superando a la 2080 ti por 520€.