Blog Personal.

Especulación, Futuro, Intel

¿Que ha mostrado Intel?

Intel con tal de mantener la atención sobre sus aún vaporosas GPUs dedicadas dejo ir hace unos días una pequeña perla en forma de una imagen que aparentemente no dice nada.

Lo que tenemos es un empaquetado extremadamente grande para lo que es una GPU de consumo, incluso es demasiado grande para lo que sería una GPU de consumo de gama muy alta, pero aún así los medios y algunos ignorantes se pusieron a hablar como si dicho procesador fuese para el mercado doméstico.

Por suerte Raja Koduri salio a aclarar que esto va para los «Data Centers», es decir, para servidores.

¿Ha cambiado Intel de idea de la noche a la máñana? La realidad es que los Xe HP o conocidos como «Arctic Sound» no han sido jamás proyectos para una GPU dedicada que compitiese contra Nvidia y AMD en el mercado de las tarjetas gráficas para PC domésticos.

Pues como dicen los angloparlantes «Directo desde la boca del caballo».

Lo que me sorprende de sobremanera es que la gente de por hecho lo de la GPU basado en Tiles/Chiplets así como así sin tener en cuenta los handicaps que supone llegar a poder realizar eso, unos handicaps que vienen por el hecho de que las GPUs trabajan con una orden de magnitud mayor en anchos de banda que no una CPU. Una cosa que ha de quedar clara, es que el concepto de varias GPUs para renderizar juegos no es del agrado de los desarrolladores ya que ningún juego es MultiGPU y en el caso de hayan varias solo utilizan una de ellas. Durante años se ha intentado el concepto de «Utilizar la GPU integrada para computación» pero ningún desarrollador quiere hacer uso de ello siquiera para renderizar en estéreo (VR) colocando una GPU al renderizando de cada ojo.

La única solución es que los Chiplets/Tiles no sean GPUs completas y lo que es el Northbridge/Uncore común este en otro chip junto a una cache de último nivel.

El XEMF no solo llevaría el Northbridge/Uncore de la propia GPU gestionando todas las comunicaciones entre los Xe Compute que son los equivalentes a los Shader Engines en AMD y los GPC en Nvidia, sino que además llevarían los Procesadores de Comandos de la GPU en vez de tener cada Chiplet el suyo propio y sería por el cual todos los Xe Compute se comunicarían con la RAM externa.

En realidad el concepto es la versión GPU de lo que AMD ha hecho con Zen 2 con el Northbridge/Data Fabric/Uncore en un núcleo aparte y de manera universal para todos los tiles/chiplets.

Pero la cosa es tan compleja que el sustrato/interposer no ha de ser pasivo sino tener el suficiente ancho de banda con los procesadores en el nivel superior, el cual en una interfaz en serie es dificil de realizar, es por ello que Intel necesita utilizar la tecnologia Foveros para comunicar en modo 3DIC los diferentes Tile/Chiplets con el interposer.

El problema actual para los diseños en las GPUs no son los FLOPS sino el movimiento de los datos y el coste energético de ello. Bill Dally quien es el cientifico jefe de Nvidia lleva años hablando de eso, en realidad el problema es el coste de los transportes de datos y especialmente el coste en lo que son las interfaces fuera de chip. Si quisieramos comunicar cada uno de los Tile/Chiplets de la GPU con el XEMF utilizando las interfaces actuales de comunicación de entonces la energía necesaria sería enorme.

Para ello se utiliza como cableado el llamado TSV (Vias a través de silició) para comunicar los chips en el nivel superior con el sustrato/interposer que realiza las labores de comunicación entre los diferentes elementos que están por encima.

El caso es que con esto, Intel hace que el consumo enerjetico este entre los 0.15 y los 0.3 pJ/bit de consumo. Pensad que el Infinity Fabric de AMD que es una interfaz tradicional tiene un consumo de 2 pJ/bit y si hablamos del PCI Express de 20 Pj/bit. Es decir, con la separación de la GPU en Chiplets aparece un problema de ancho de banda que solo se puede solucionar utilizando interconexiones TSV y configuraciones 3DIC que son extremadamente caras para el mercado doméstico. Y con todo esto acabo de explicar las sobre-complicación en estos momentos a la hora de hacer una GPU para «Gaming» basada en Tiles/Chiplets.

Lo que tenéis que tener en cuenta es que en un Data Center no ocurre nada si el entorno es multiGPU por el hecho que vamos a tener varios clientes pidiendo cada uno una GPU o una porción de la misma, por lo lo que no hace falta el modelo de GPU unificada desde la perspectiva del software para los sistemas domésticos y eso nos permite colocar varias GPUs completas de manera simétricaa en un mismo MCM, como una especie de SLI/Crossfire en un solo encapsulado, teniendo cada una su propia memoria. Lo que creo que tenemos son unas 4 GPUs Xe HP y cada uno con un chip HBM2E como memoria local.

Hasta ahora Intel solo ha presentado los llamados Xe LP, con 96 EU y también llamados DG1 tanto en su versión integrada como dedicada (en distribución limitada).

En cambio los Xe HP son los que son llamados «Arctic Sound» y tienen la nomenclatura DG2 y de ellos sabemos que se diferencian del modelo Xe LP por la inclusión de unidades Tensor/Arrays Sistólicos en los EU pero no parece que vayan a tener soporte DFP (Coma flotante de precisión de 64 bits) como si que van a tener los Xe HPC que estarían en la gama más alta de todas. Pues bien, hace unos meses como algunos recordaréis se filtro información de los controladores que decía lo siguiente:

  • iDG1LPDEV = «Intel(R) UHD Graphics, Gen12 LP DG1» «gfx-driver-ci-master-2624»
  • iDG2HP512 = «Intel(R) UHD Graphics, Gen12 HP DG2» «gfx-driver-ci-master-2624»
  • iDG2HP256 = «Intel(R) UHD Graphics, Gen12 HP DG2» «gfx-driver-ci-master-2624»
  • iDG2HP128 = «Intel(R) UHD Graphics, Gen12 HP DG2» «gfx-driver-ci-master-2624»

Cuando la cifra de 128 EU por Tile/Chiplet apareció salio gente a racionalizarlo y a decir eso de «No, son 512 por Tile/Chiplet» pero sabemos que no es cierto porque entonces Intel habría presentado una GPU dedicada para gaming pero esos chips no están, se les esperaba durante la GDC y nada…

El problema que tiene Intel con su nodo de 10nm actual es que el ratio de defectos por área es demasiado alto para ser sostenible para grandes chips, por eso utilizan el nodo para chips realmente pequeños. La configuración de 512 EU del Xe HP de gama más alta no pueden realizarla bajo el nodo de 10nm en forma de GPU monolitica, es por ello que necesitan colocar varias GPUs pero eso se traduce en perder la capacidad para lanzar algo en el mercado doméstico y especialmente en el mercado del gaming donde es inviable lanzar una configuración multiGPU en estos momentos y no, una GPU dividida en Tiles/Chiplets no es una multiGPU y ya he comentado antes los problemas que se ven con ello y la solución no es barata.

¿Pero como se eso? Pues por una diapositiva que se filtro.

Cada Tile es de tamaño regular (128 EU) y podemos concluir configuraciones de 1, 2 y 4 Tiles que nos darían los 128, 256 y 512 EU respectivamente. Una filtración de hace unos meses hablaba de una GPU con un consumo de 150W para el mercado doméstico, dicha GPU no es la DG1 que tiene un consumo de solo 75W y es solo para desarrolladores aparte de tener 96 EU. La versión con 128 EU son unas 1024 ALUs, lo que equivalen a solo 16 Compute Units/SM de AMD o Nvidia, es decir, una tarjeta de gama baja que habría sido otro Intel i740 de nuevo y habria pasado con mucha pena y ninguna gloria en el mercado afectando negativamente a la marca Intel Xe que estan construyendo.

¿Pero es culpa de los arquitectos? No, en ningún momento sino de que el nodo de 10nm de Intel es una basura que les impide hacer chips monolíticos grandes. Intel al contrario que AMD y Nvidia aún conserva sus fundiciones y el impacto de tener que depender de fundiciones de terceros para uno de sus productos es algo de lo que no quieren ni oír a hablar. Por lo que si, un Intel Xe HP monolitico con 512 EU existe pero Intel no lo puede fabricar sin que el coste del chip se vaya por la estratosfera por los bajos yields asociados.

Lo otro realmente sorprendente es que los Intel Xe tenían que competir contra Nvidia en el mercado de la IA, especialmente el objetivo es ir al mercado donde ahora se encuentra Volta y pronto se verá reemplazado por Ampere. El problema es que todos sabemos como terminará la cosa cuando Nvidia presente el día 14 de Mayo el chip GA100. El hecho de que Intel comprasé la Israeli Habana para tener un chip para IA es directamente competencia interna contra los Xe HP y los Xe HPC. ¿Acaso la directiva de Intel no ve competitiva el trabajo y la división que esta trabajando en el Intel Xe? Esto es lo mismo que ocurriría si Nvidia comprase una empresa que hace chips de IA teniendo ellos los Tensor Cores en sus GPUs… ¿Verdad que sonaría sospechoso?

Esto es todo, tenéis el Discord y los comentarios de esta entrada para comentarla.

0 0 vote
Article Rating
1 Comment
Oldest
Newest Most Voted
Inline Feedbacks
View all comments
Steven

Hola creo que Intel también ensaya para sus cpus