Blog Personal.

Futuro, Intel

El puñetazo en la mesa de Intel en cuanto a Xe y revierte su situación.

En primer lugar, el altamente rumoreado Intel Xe DG2 conocido como Artic Sound en realidad ha sido cancelada, este diseño se componía de 1, 2 o 4 Tiles de 128 EUs por Tile (Configuración de 128, 256 y 512 EUs) pero su existencia y configuración eran debidos a los problema de rendimiento de las obleas del proceso de 10nm de Intel cuyo rendimiento baja en picado en chips de determinado tamaño y de ahí a tener que tirar de Tiles con configuraciones muy bajas en cuanto a la cantidad de EUs pero el cambio de fundición ha permitido al equipo de Raja Koduri descartar por completo la configuración de 128 EUs por Tile del DG2 y poder colocar un total de 512 EUs por Tile en el nuevo Intel Xe HP y solo por el cambio de fundición y de nodo.

Tened en cuenta que no hablamos de una GPU sub-dividia en n tiles sino de 4 GPUs en un mismo sustrato/interposer y que los juegos no están pensados para funcionar con varios procesadores de comandos trabajando en paralelo. El Intel Xe HP de 2 Tiles y el de 4 Tiles no esta pensado para el mercado doméstico mientras que el Intel Xe de 1 Tile al resultar monolítico si que esta preparado para ello ya que no daría problemas en ningún juego, pero Intel no va a lanzar el Xe HP tal cual al mercado de los juegos, pero a eso ya entraremos más adelante porque antes de nada hay que hablar de la arquitectura y los cambios que han realizado empezando por la Execution Unit que ha sido re-hecha por completo.

Hay bastantes cambios como ahora:

  • La EU ha pasado de tener 8 ALUs a tener 10 ALUs. Las 8 primeras que están agrupadas son el equivalente a una unidad SIMD tradicional utilizada en una GPU y realmente engloba 8 unidades FP32 (con soporte para SIMD sobre registro por lo que puede actuar como 16 unidades en FP16 o 32 unidades en Int8).
  • Las 2 que van aparte (EM) son el equivalente a las SFU (Special Function Units) en las GPUs de AMD y Nvidia que se encargan de instrucciones más complejas como por ejemplo las trigonométricas que requieren ALUs más complejas.
  • 2 Execution Units comparten ahora un mismo planificador (Thread Control).

Ahora bien, no podemos comparar los EU con las unidades SM y CU de Nvidia y AMD respectivamente por el hecho que en la EU no se engloban ni las unidades de filtrado de texturas, ni la memoria local compartida ni la cache de datos/texturas de primer nivel. Intel sigue una organización distinta donde todos los elementos se organizan alrededor de lo que ellos llamán un Sub-Slice y varios Sub-Slice componen un Slice.

El diagrama es el del Intel Xe LP incluido en Tiger Lake y vendido aparte en forma de la tarjeta para desarrolladores Intel DG1. Si nos fijamos 1 Slice tiene los elementos de función fija típicos de lo que es el Conjunto B de una GPU incluyendo el Conjunto A (Sub-Slice) y las unidades de rasterizado (RASTER), teselación (GEOMETRY) y los ROPS (PIXEL BACKEND). En cuanto al PIXEL DISPATCH no es más que la unidad encargada de distribuir los fragmentos después de la étapa de rasterizado entre las diferentes unidades.

El Sub-Slice por otro lado es el Conjunto A, en él tenemos todos los elementos del Conjunto A de una GPU como la cache de primer nivel/texturas, la memoria compartida (SLM(, la unidad Load/Store para que los EU puedan acceder a dicha memoria, la unidad de texturas (SAMPLER) que tiene una capacidad de 48 Texels por ciclo de reloj por Slice, esto significa que cada Sub-Slice tiene el equivalente a 8 unidades de texturas. Luego fijaos que tenemos unos 16 EUs que con 1 unidad SIMD de 8 ALUs cada una, esto son unos 128 ALUs en total para unas 8 TMUs. ¿No os suena de algo esa cifra? A mi si, es la misma cantidad de ALUs que 1 TPC en Nvidia (que engloba 2 SM) y de 1 WGP de AMD en RDNA (que engloba 2 CUs), en todo caso el ratio universal de 16;1 respecto a la cantidad de unidades SIMD (no se incluyen las SFU) se mantiene y sigue la clásica organización de una GPU tradicional.

El Xe LP esta compuesto por 6 Sub-Slices pero el cancelado Xe HP DG2 estaba compuesto por unos 8 Sub-Slices en total. Por otro lado lo que sorprende es el hecho que no aparezcan por ningún lado el equivalente a los Tensor Cores pese a que estaban mencionados en los drivers, vale que estamos hablando del Intel Xe LP pero también han hablado del Xe HP y en cuento a los Arrays Sistólicos pues…

Y no olvidemos que estos estaban mencionados en la documentación de la propia Intel.

¿Que ha ocurrido? ¿Los ha descartado Intel? Bueno, hay que tener en cuenta que ellos venden otros chips con dicha funcionalidad mientras que Nvidia solo vende sus GPUs y no quieren que resulte en un problema entre divisiones pero de cara al las GPUs con los arrays sistolicos siendo lo proximo que se estandariza con posibilidad de que AMD los adopte en RDNA 3 no incluirlos en el Intel Xe HP parece un suicidio ya que las capacidades no son mayores que las de RDNA 1 y RDNA 2 en este campo y después de que Intel anunciará dicho tipo de unidades pues me esperaba verlas en el Intel Xe HP como minimo pero hay que recordar que oficialmente Intel hablo de ellas hace unos meses en referencia Ponte Vecchio aka Intel Xe HPC por lo que lo vamos a ver en dicha arquitectura.

Por lo que Xe HP se queda como una GPU pensada para los Data Centers donde podemos colocar 1, 2 o 4 Tiles… ¿Os acordáis de esto?

Pues como ya sabiamos son los encapsulados del Intel Xe HP con 1, 2 o 4 Tiles/Chiplets e Intel nos lo acaba de confirmar.

Cada uno de los Tiles es una GPU completa montada sobre un sustrato/interposer que se comunican entre si. Intel no nos ha revelado que tipo de memoria utilizan los Intel Xe HP pero sabemos que utilizan una configuración 2.5DIC con los 4 Chiplets montados sobre un sustrato común llamada EMIB (Embedded Multi-die Interconnect Bridge)

Intel ya ha utilizado el EMIB en dos productos del pasado y ambos tienen en común que utilizan memoria HBM (HBM2 para ser más exactos) por lo que debemos suponer que el Xe HP utilizará el mismo tipo de memoria. Lo cual no es un problema desde que no es un producto para el mercado de consumo sino para Datacenters donde su sistema de costes palía el alto coste de las memorias del tipo HBM.

En realidad Intel puede colocar cualquier configuración de chips sobre el EMIB por lo que no solo puede colocar unidades de un tipo sino que puede combinar CPU, GPU, FPGAs, Unidades de Aceleración Especializadas, etc. Pero el Intel Xe HP tiene una configuración de 1 o 2 o 4 GPUs encima del sustrato donde a cada GPU se le llama Tile.

Hay que tener en cuenta que el interposer puede estar fabricado bajo un nodo distinto que los chips que van encima del mismo, de ahí a que el interposer este fabricado bajo el nodo de 10nm de Intel mientras que las GPUs que van encima van a otra fundición. La ventaja es que ahora el tamaño de cada GPU/TIle no es de 128 EUs como estaba planeado sino de 512 EUs. Esto significa que cada Tile es el equivalente a la configuración de 4 Tiles originalmente planeada y esto coloca las cosas en perspectiva porque parece que este era el plan de Raja Koduri desde el principio y existía el conflicto con el recién despedido Murthy que obligaba al equipo de Raja a sacar una GPU para el mercado doméstico que no era competitiva (solo 128 EUs) y hubiese sido otra Intel i740 y por tanto un enorme fiasco para Intel. Este es el motivo por el cual no hemos visto el Intel Xe HP monolítico para el mercado del gaming por el hecho que por las limitaciones del nodo de 10nm de Intel hacía que fuese literalmente una basura que acabaría compitiendo en la gama más baja del mercado.

El caso es que si no habíamos nada de los Intel Xe hasta ahora no era porque no estuviesen a punto, es que Murthy con su obsesión de hacerlo pasar todo por el nodo de 10nm estuvo a punto de enviar a la mierda literalmente hablando todo el trabajo del equipo de Raja. Es sumamente importante el plan porque gracias al EMIB Intel puede hacer como hizo con el Kaby Lake y montar MCMs sobre el mismo interposer de CPU+GPU+Aceleradores y tener ordenadores de gaming puramente Intel que no den pena gráficamente hablando.

Hay que tener en cuenta que la nueva configuración permite Tiles de hasta 512 EUs (4096 ALUs que es el equivalente a 64 CUs o 64 SM) en un núcleo monolítico y le da a Intel la capacidad de ser competitiva frente a AMD y Nvidia. Este cambio se ha realizado de entrada en el Intel Xe HP de entrada pero va a ser llevado al Intel Xe HPG que es una nueva gama que ha presentado Intel y que lleva consigo un cambio bastante importante que son las unidades de calculo de intersección de rayos para el trazado de idem en los juegos.

Sobre el Xe HPG no sabemos nada pero podemos llegar a suponer una serie de cosas de antemano.

  • Debido a que los juegos no se llevan bien para trabajar con más de una GPU (o 1 procesador de comandos gráficos más bien) entonces podemos suponer que se trata de 1 Tile con 512 EUs que es el equivalente a 64 CUs o 64 SM de la competencia.
  • La memoria HBM2 habría sido reemplazada por GDDR6 desapareciendo con ello en el proceso también el Inteposer y por tanto todo el esquema del EMIB.
  • Es posible (no lo sabemos) que herede del Xe HPC los arrays sistolicos/tensor cores para ser competitiva frente a Ampere y RDNA3.
  • Es posible que veamos de cara a configuraciones para el Cloud Gaming el mismo tipo de configuración que los Intel Xe HP.

Ya para terminar, otros cambios que han realizado el equipo de Raja en toda la gama de los Intel Xe es que han renovado por completo ciertas partes de la GPU que son de función fija con tal de que estas funcionen de manera más eficiente que antes por un lado y por otro los aceleradores de codificación y decodificación de vídeo como el controlador de pantalla han sido completamente renovados y re-hechos desde 0 respecto a generaciones anteriores de chips de Intel.

Esto es todo, tenéis los comentarios de esta misma entrada para comentar y no olvideis que tenemos Discord.

5 3 votes
Article Rating
3 Comments
Oldest
Newest Most Voted
Inline Feedbacks
View all comments
anon

en un núcleo monolítico y le da a Intel la capacidad de ser competitiva frente a Intel y Nvidia.
No deberia Ser AMD?

Consideraria la Pena comprarse esa GPU Xe en 2021 o mejor esperar o quedarse con Nvidia?

Steven

Hola todavía renderiza como tile ?