Blog Personal.

AMD, Especulación, Futuro, Radeon

Comentado los últimos rumores acerca de la RX 6×00 aka RDNA 2.

La gente de Red Gaming Tech ha dejado ir una serie de rumores, no sabemos si filtraciones, acerca de RDNA 2 en PC.

El primer punto importante es que no va a existir ninguna de las versiones de la GPU con HBM2. El motivo de ello no lo dicen en el vídeo pero es porque el único cliente importante era Apple que ahora va a tirar de sus propias GPUs y por tanto AMD ya no tiene la motivación de realizar ninguna versión con interfaz de memoria HBM2 ya que es un tipo de memoria que el mercado ha descartado por completo dentro de lo que son las GPUs pensadas para el mercado de consumo.

El segundo punto, es que descarta por completo que haya un modelo con un bus de 512 bits, su conclusión es que lo que es Big Navi tiene un bus de 256 bits por el hecho que la imagen de la placa que se filtro hace un par de días apuntan a una configuración con 16GB de memoria.

Si no existe un bus de 512 bits entonces con dicha configuración ha de ser de 256 bits y es aquí donde vendría lo interesante. AMD habría apostado por colocar una enorme cache de último nivel en la GPU de unos 128MB en su interior y tiene sentido porque una de las particularidades de las GPUs contemporáneas tras el traslado a lo que se llama Tile Caching es que operan a nivel de la cache de último nivel como si fuese un Tile Renderer pero realmente no son un Tile Renderer,

Aunque la diapositiva es de Nvidia digamos AMD utiliza el mismo sistema de rsterización por tiles desde las AMD Vega que es el llamado DSBR y esto fue llevado a GPUs posteriores como es RDNA y posteriormente RDNA 2.

En el Whitepaper de Vega se puede leer:

El Draw-Stream Binning Rasterizer (DSBR) es una innovación importante a destacar. Ha sido diseñado parareducir el procesamiento innecesario y la transferencia de datos en la GPU, que ayuda tanto a aumentar el rendimiento como a reducir el consumo de energía. La idea era combinar los beneficios.
de una técnica ya ampliamente utilizada en las GPUS de productos de bolsillo (representación en tiles) con los beneficios de
representación de gráficos en modo inmediato para PCs con gráficos de alto rendimiento.

El renderizado en modo inmediato estándar funciona rasterizando cada polígono como se presenta hasta que toda la escena esté completa, mientras que la representación en mosaico funciona dividiendo la pantalla en una cuadrícula de tiles y luego renderizar cada mosaico de manera independiente.

El DSBR funciona dividiendo primero la imagen que se representa en una cuadrícula de contenedores o tiles en el espacio de la pantalla y luego recolectando un lote de primitivas para rasterizar.

Los tamaños de los contenedores y lotes se pueden ajustar dinámicamente para optimizar el contenido que se representa.

Este diseño economiza el ancho de banda de la memoria al mantener todos los datos necesarios para rasterizar la geometría para un contenedor (tile) en la memoria rápida dentro del chip (es decir, el caché L2).

Por lo que podéis ver es lo mismo pero con otro nombre comercial.

La idea del Tile Caching/DSBR es que la mayoría de operaciones se realicen en la cache sin tener que tocar la memoria ya que el consumo energético por operación es mucho más bajo si los datos están en el procesador que fuera del procesador. Si la energía es mucho más baja entonces podemos conseguir velocidades de reloj mucho más altas bajo el mismo consumo energético por operación e incluso utilizando menos energía y esta sería parte de la clave de RDNA 2 para conseguir una mayor eficiencia y con ello subir la velocidad de reloj más al norte.

La idea de tirar de una cache mucho, pero que mucho más grande tiene una explicación muy simple y es que el contrario de los Tile Renderers puros como pueden ser los PowerVR, Mali, Adreno… Y demás arquitecturas utilizadas en las GPUs para Smartphones donde tienen una pequeña memoria scratchpad fija e independiente al sistema de caches. En el caso de las últimas GPUs de AMD y Nvidia esto se hace con la Cache L2 y hay que tener en cuenta como funciona una cache para ver cual es el problema que no es otro que un dato sea copiado hacía la RAM en cualquier momento sin control del programa por como funciona una cache.¿Como evitas que ocurra esto? Aumentando la cantidad de cache de último nivel pero para ello hay dos trucos distintos:

  • Simplemente aumentando la densidad de la cache
  • Añadiendo una Victim Cache.
  • Este tipo de caches lo que hacen es que cuando un dato es echado fuera de la Cache de último nivel del procesador lo que hace es echar ese bloque de datos a la Victim Cache y cuando un dato es necesario y no se encuentra en las caches en vez de buscarlo directamente a la RAM se busca en la Victim Cache que funciona como una especie de cache de último nivel.

Pero Paul en el vídeo habla de algo llamada Infinite Cache y la palabra Infinite tiene reminiscencias al Infinite Fabric y me da a mi que no es la Cache L2 de la GPU que ha sido aumentada enormemente sino que se ha añadido una Victim Cache pero no dentro de la unidad GFX sino entre estos y el controlador de memoria. Para que os hagáis una idea vamos a coger lo que es la representación de la organización de Navi 10 como referencia para que os podáis guiar.

De este vamos a descartar el Conjunto D donde se encuentra el Northbridge y los aceleradores de la GPU, los cuales están en la parte derecha nos queda esto.

Pues bien, hay una sección en el die que es la Cache L2, que precisamente es esta pieza de aquí:

La Cache L2 tiene acceso directo a las interfaces GDDR6 pero hay un elemento intermedio que es la interfaz Infinity Fabric que en el diagrama se ve como una tubería de Super Mario.

Pues bien, mi idea es que la «Victim Cache» se llamaría Infinite Cache porque precisamente estaría situada donde la interfaz Infinite Fabric que se encuentra entre la cache y la memoria y haría de Victim Cache recogiendo todos los Tiles y Datos descartados de las Caches de la GPU para que no caigan en memoria y a la hora de recuperar los datos no sea tan costoso en terminos energéticos permitiendo velocidades de reloj más altas.

¿Se encuentra esta Infinite Cache en PlayStation 5?

Teniendo en cuenta la alta velocidad de reloj de PlayStation 5 y que RDNA 2 en PC las podría alcanzar sin problemas…

Pues sinceramente, podría ser que Sony y AMD la hubiesen integrado pero en estos momentos…

Esto es todo, tenéis los comentarios de esta misma entrada para comentar y no olvideis que tenemos Discord.

4.9 8 votes
Article Rating
5 Comments
Oldest
Newest Most Voted
Inline Feedbacks
View all comments
Steven

Entiendo que es parecida a la ESRAM pero mas rápida parecida al cache de los cpu 5000 de intel

Manu

Por fin… vamos a tener precio.. PS5. Ven con papi.

Alguien conserva este PDF?

https://twitter.com/XB1_HexDecimal/status/1275862149471051776

Lo pueden resubir a algun sitio? Estoy con una teoria que creo que suena a cagada de Microsoft pero quiero confirmarlo con el PDF filtrado.

nolgan

pues interesa, ya nos contaras

Manu

Tengo que ver el video pero este canal de Youtube es la de RDNA3? Interesante cuanto menos la teoría del final. Es tuya, Urian o la comentan en el video.

Last edited 18 days ago by Manu
Malatraca

Parece ser que ya se han filtrado el rendimiento de una posible AMD RX 6000 y estaría en rendimiento a la altura de una rtx 2080ti.

https://twitter.com/TUM_APISAK/status/1304627584706068480/photo/1