Blog Personal.

Especulación, GeForce, Nvidia

Especulación de última hora: ¿Como será la Nvidia GA100?

A unas pocas horas de la presentación de la GA100 aka Ampere voy a hacer unas predicciones, pensad que tengo el cuervo ya sazonado y preparado.

Especificaciones de la GA100:

  • Número de GPCs: 8
  • Número máximo de SM por GPC: 16.
  • Número máximo de TPC por GPC: 8
  • Número máximo de núcleos CUDA: 8192
  • Número máximo de Tensor Cores: 2048
  • Unidades de texturas: 512
  • Potencia en FP32: 30 TFLOPS (2x GV100)
  • Potencia en FP64: 15 TFLOPS (2x GV100)
  • Potencia en FP16 (Tensor Ops): Cerca de los 500 TFLOPS.
  • Potencia en Int8 (Tensor Ops): Cerca de 1 PetaOps.
  • Potencia en Int4 (Tensor Ops): Cerca de 2 PetaOps
  • Tamaño del chip: >700mm2
  • Cache L2: 8MB ¿12MB?
  • Memoria: HBM2E ≥ a 2.4 Gbps, bus de 4096 bits. 6144 bits

Pensad que puedo estar completamente equivocado, pero esto es lo que me espero que va a ser la GA100.

… #ADDENDUM

Pues parece que de entrada me voy a comer cuervo ya desde el principio porque el bus parece ser de 6144 bits al haber 6 chips HBM2E en el sustrato/interposer de la imagen que se ha filtrado.

EL cambio de los 4096 bits de bus a los 6144 es un cambio hecho a última hora, lo que confirmaría que la arquitectura se veía limitada por ancho de banda.

PD: A medida que se vayan sabiendo los detalles iré actualizando esta entrada.

Esto es todo, tenéis el Discord y los comentarios de esta entrada para comentarla.

0 0 vote
Article Rating
2 Comments
Oldest
Newest Most Voted
Inline Feedbacks
View all comments
Daniel

Buenas, acabo de encontrar esto, y según leía me acordaba de los tensor cores (arrais sistolicos) que llevarán las nuevas tarjetas graficas/consolas.

http://gvv.mpi-inf.mpg.de/projects/XNect/

Supongo que esto podría implementarse en dichos procesadores, dejando el resto de gpu libre, no?
(es decir, sería elegir entre algoritmos para reescalar resolución o algoritmos de este estilo si se quiere usar Motion tracking de cara a VR)
Saludos

Julio

Aunque HBM y GDDR6 no funcionan a velocidades similares, ¿cómo es que un bus a 4096 bits no de suficiente rendimiento si es más de diez veces superior al bus gddr6?