Blog Personal.

Futuro, Intel

Bad Luck Raja (II)

Justo mientras hacía la entrada sobre la situacion de los Intel Xe en medios más profesionales que el mio, esto ni siquiera es un medio. Aparecía informacion acerca de la situación de las GPUs dedicadas de Intel a través de diferentes fuentes en el día que parecía ser la fiesta de darle al caballo muerto.

Comencemos con lo que es Ponte Vecchio. Tenía que ser el primer producto de 7 nm de Intel, el primer producto para Data Centers a 7 nm de Intel, la primera GPU para Data Centers de Intel, un producto estrella para su empaquetado avanzado y la integración avanzada de Intel, y un componente clave de la oferta de la supercomputadora Aurora.

Esto nos viene a confirmar que Intel Xe DG2 (aka Xe HP) esta cancelado por completo y eso explicaría porque no ha sido mencionado más allá de los drivers.

Si pensabas que el primer producto de centro de datos de 7 nm de Intel iba a ser una CPU en lugar de una GPU, te lo perdonamos porque eso es lo que Intel entonó durante meses. No señalaremos que este mensaje fue idiota porque todas las piezas se publicaron públicamente, comenzando con la salida pública del propio Ponte Vecchio en noviembre del año paso pasado. Por qué Intel siguió siendo demasiado inteligente por su propio benefició después de la divulgación oficial a la que no podemos contestar, solo que dañó su credibilidad.

Y en efecto, Intel anuncio Ponte Vecchio bajo su nodo de 7nm hace unos meses.

Las cosas no se veían bien para Ponte Vecchio ya desde antes de la presentación de noviembre con varios informes de problemas en el diseño y proceso. Hubo un mandato interno de mandar a imprimir el chip antes del final del primer trimestre de 2020 o las cabezas rodarían, cualquier cosa más tarde y el contrato del Aurora se perdería e Intel tendría de manera pública un ojo a la virulé, lo cual sería malo.

No se llego a la fecha de salida. Rodaron cabezas. El contrato del Aurora aún no se ha incumplido oficialmente, por lo que el gasto aún puede empapelarse, pero el ojo morado ocurrió durante el set de preguntas y respuestas con los inversores de 2020.

Esas fechas no son fechas de lanzamiento sino fechas de final de diseño del chip, cuando este ha de estar terminado para pasar a la integración física y realizar las pruebas de fabricación. En ese momento las especificaciones de la arquitectura y el diseño de la misma están completamente cerrados por completo.

Analicemos un poco las palabras utilizadas para describir Ponte Vecchio, Bob Swan en el set de preguntas y respuestas con los inversores dijo:

Si, sobre Ponte Vechio, originalmente la arquitectura incluye un die para E/S, conectividad, una GPU, y unos pocos tiles de memoria, todo ello empaquetado de manera conjunta.

Es decir, al igual que en el Tiger Lake de la propia Intel que utiliza Foveros para tener dos chips uno apilado encima del otro a diferentes densidades teniendo uno de ellos las interfaces de E/S y el otro el resto del SoC….

cof

¿Pero como llevamos esto a una GPU? Los elementos de E/S en una GPU están conectados al Northbridge/Uncore de la misma pero no forman parte de la unidad principal de renderizado, son elementos como ahora:

  • Controladores de Pantalla.
  • Codificadores y Descodificadores de Video.
  • Unidades DMA para comunicarse con el puerto PCIe externo.

Estas unidades requieren muy poco ancho de banda en comparación y suelen colocarse en las GPUs en la perifería, la solución de Intel es llevar todas estas unidades a un chip aparte y conectarlo a través de vías de silicio verticalmente. Pero en cuanto a la memoria, el funcionamiento no es el mismo que en Tiger Lake desde el momento en que la memoria utilizada es del tipo HBM2e que requiere de un sustrato/interposer para la misma, al final la cosa queda de la siguiente manera:

Ahora poneos a pensar un poco. Ya las GPUs con HBM2 donde se tienen que encajar delicadadamente las piezas sobre el sustrato/interposer pueden llevar a fallos y el aumento en los pasos de fabricacion aumentan las cosas, con la GPU dividida en 2 dies entonces los costes suben enormemente por lo que no estamos ante una GPU pensada para funcionar en ningún momento en el mercado doméstico en cuanto a costes, pero esto debería darse uno cuenta solo por el uso de memoria HBM2E y que la GPU sea Xe HPC.

El motivo por el cual puedes colocar la E/S en otro chip es por el poco ancho de banda existente. El motivo por el cual nadie hasta la fecha ha hecho una GPU por Tiles es por el coste energético del desplazamiento de datos. Una CPU acaba transmitiendo una orden de magnitud por debajo en cuanto a datos respecto a una GPU y las GPUs necesitan interconexiones con una muy baja velocidad en cuanto a pj/bit con tal de poder alcanzar esos anchos de banda en una intercomunicación de chip a chip, algo que en teoría y sobre el papel Intel debería tener solucionado pero aún no y es un tipo de tecnología que tanto AMD como Nvidia también están trabajando en ella y tienen aún en laboratorio. ¿En que se traduce esto? Pues que realmente no pueden dividir una GPU por el momento en tiles ya que como bien dice el artículo.

El lado de la GPU es muy sensible al consumo, las cargas de trabajo trivialmente paralelas como las que tienen las GPU tienen que ver con el rendimiento por vatio.

Es decir, con tal de conseguir dividir la GPU en Tiles lo que necesitaría Intel no es la interfaz Foveros del Tiger Lake sino una con una eficiencia mucho mayor de la que carecen, de ahí a que la idea original de crear una GPU con varios tiles se haya ido al garete y lo que es la GPU propiamente dicha siga siendo monolitica.

¿Que nos prometía Intel? Tener varios PVC conectados sobre un sustrato/interposer común que les permitía funcionar como una GPU gigante…

La intercomunicación en teoría iba a hacerse utilizando chips XEMF con una Cache de último nivel llamada Rambo Cache, pero esto no es más que vaporware por parte de Intel y que no entra dentro del contrato del Aurora donde las GPUs no están colocadas bajo ningún sustrato/interposer común. Todo humo y espejos para hacer ver que Intel tenía un proceso de intercomunicación vertical más avanzado que la competencia. En pocas palabras…

El otro punto son los llamados Slices, en realidad un Xe Compute no es más que el equivalente a un Shader Engine de AMD o un GPC de Nvidia. Intel podría haber planteado chips monoliticos con 2 o 4 Slices pero por el mal rendimiento de las obleas se convertieron en 2 o 4 Tiles con una serie de problemas para desarrollar una interfaz de comunicación entre chips que fuese eficiente energeticamente, como os he comentado antes Intel no lo consiguió bajo el nodo de 10nm. ¿El planteamiento? Buscar intentarlo bajo el nodo de 7nm de la propia Intel para hacer un chip monolitico con 6 Slices en vez de tener que tirar de 4 Tiles.

En realidad el Xe HPC no era más que un Xe HP pero con ALUs de 64 bits añadidas para la computación de alto rendimiento. ¿La idea? Lanzar versiones monoliticas de los Intel Xe HP en vez de lanzarlas por Tiles, este era el plan B que Intel estaba desarrollando, la unica parte común es que todas tenían que compartir el mismo I/O Die. Pero claro, el problema vino con la implementación de cara al trazado de rayos como parte esencial de DX 12 Ultimate, esto llevo a que Xe HP aka Intel DG2 no solo este cancelada en su versión por tiles/chipets sino también en su versión monolítica. ¿Versión monolítica? Si, Intel tenia planes para presentarla tanto en el CES como en la GDC de este año pero así no ha sido.

Por otro lado hay un video de AdoredTV donde se analiza la situación y como afecta esto.

Por lo visto Intel ha hecho lo mismo que ha hecho AMD en dia con Zen y esta dejando a Raja sin recursos, el motivo por el cual él se marcho por completo de AMD le ha vuelto a ocurrir en Intel.

¿Que tenia que ser DG3? Pues lo que podriamos llamar «Gen13», Tecnicamente tanto DG1 como DG2 eran evoluciones de Gen11 sin cambios arquitecturales mayores excepto la implementacion de unidades tipo Tensor en el Xe HP. El problema del llamado Xe HPC es que por lo visto tenia una configuración en cuanto al numero de EUs igual al del Xe HP, ALUs para FP de 64 bits aparte. En el caso del Xe LP la cantidad de EUs por Slice es de unos 96 (768 ALUs), en el caso del Xe HP es de 128 EU (1024 ALUs) y en el Xe HPC también. Esto son unas 6144 ALUs, una cifra por debajo de las 8192 ALUs como máximo teórico de Nvidia Ampere y AMD CDNA para el mercado de la computación de alto rendimiento pero el chip de Intel tenia que ser mucho más pequeño gracias a tener un nodo más avanzado.

Obviamente el retraso en el nodo de 7nm de Intel les coloca en un enorme problema ya que si fallido nodo de 10nm no permite un chip más grande y al mismo tiempo esto significa tener que recortar de alguna manera el PVC para los Cray Aurora, lo que se resume en:

En realidad a lo que Intel le aterra no es Nvidia, lo les asusta es el CDNA de AMD y esperaban ganarle a AMD el contrato del SuperOrdenador «El Capitan» tras ganar el del Aurora pero lo perdieron frente a AMD y su imagen se ha visto negativamente afectada por un problema de preferencias. En vez de desarrollar la arquitectura para ir en contra de AMD y Nvidia en GPUs dedicadas se han gastado el personal y los recursos en un chip para un solo super-ordenador que para colmo ellos mismos han autoboicoteado en todo el proceso.

Lo que esta claro es que añadir dos o tres unidades a una arquitectura ya existente no crean una nueva arquitectura y que lo que hoy en día Intel llama Intel Xe no es lo que Koduri y su equipo vinieron a hacer por mucho que él sea quien da la cara como jefe de la sección de marras. Pero realmente lo que han presentado podrían haberlo lanzado sin Koduri en la plantilla pero la Intel DG3 se ha salido de los mapas de ruta por completo y esta si que tenia que ser una arquitectura nueva como lo fue RDNA respecto a GCN en AMD.

Esto es todo, tenéis los comentarios de esta misma entrada para comentar y no olvideis que tenemos Discord.

5 3 votes
Article Rating
1 Comment
Oldest
Newest Most Voted
Inline Feedbacks
View all comments
Steven

Hola dicen que koduri será quien anuncie los nuevos cpu talves cambio de empreo a arquitecto de cpu