A Intel revelou uma série de novas iniciativas de hardware e software projetadas para avançar as ambições da empresa em IA em múltiplos segmentos de mercado em seu evento Vision 2024, atualmente em andamento em Phoenix, Arizona.
Com o recente lançamento de seus processadores Core Ultra Meteor Lake, a Intel já trouxe uma NPU para notebooks e sistemas de pequeno porte, mas as divulgações de terça-feira foram focadas em data centers e no setor empresarial.
Durante seu discurso principal, o CEO da Intel, Pat Gelsinger, apresentou o novo acelerador de IA Gaudi 3 e uma nova família de processadores Xeon 6, que supostamente oferecem vantagens de desempenho e eficiência em relação a seus antecessores e competem favoravelmente com os rivais.
No total, a Intel afirma que seu acelerador de IA Gaudi 3 pode fornecer uma melhoria média de 50% no desempenho de inferência com uma melhoria de aproximadamente 40% na eficiência de energia em comparação com o H100 da Nvidia. A Intel também afirma que faz isso a uma fração do custo.
Destaques do Gaudi 3 da Intel
O novo acelerador de IA Gaudi 3 da Intel é fundamentalmente semelhante ao Gaudi 2, mas avança a arquitetura e a plataforma de várias maneiras:
- Fabricado em um nó de processo mais novo e avançado (5nm vs 7nm), o que melhora a eficiência energética e permitiu à Intel empacotar mais recursos e transistores no chip.
- Possui 64 núcleos Tensor Processors de 5ª geração e 8 Matrix Math Engines, que oferecem o dobro do desempenho de computação FP8 e quatro vezes o desempenho BF16 do Gaudi 2.
- Oferece o dobro da largura de banda de rede e uma vez e meia a largura de banda de memória do Gaudi 2.
- Inclui 96MB de cache SRAM integrado oferecendo enormes 12,8 TB/s de largura de banda e 128GB de memória HBM2e com pico de 3,7 TB/s de largura de banda.
- 24 portas Ethernet de 200 Gb compatíveis com RoCE estão a bordo, para rede flexível no chip, sem a necessidade de usar interfaces proprietárias.
A Intel oferecerá o Gaudi 3 em uma variedade de fatores de forma, incluindo placas Mezzanine e placas de expansão PCIe. Os sistemas também podem ser construídos em torno de uma placa-base universal x8 e ter resfriamento a ar ou líquido.
Reivindicações de desempenho do acelerador de IA Gaudi 3 da Intel
A Intel forneceu uma variedade de reivindicações de desempenho para o Gaudi 3 em relação às GPUs baseadas em Hopper da Nvidia, no que diz respeito a treinamento, inferência e eficiência:
- Versus o Nvidia H100, a Intel espera que o Gaudi 3 entregue aproximadamente 50% mais rápido o tempo de treinamento em média nos modelos Llama2 com parâmetros 7B e 13B, e no modelo GPT-3 de 175B parâmetros.
- A Intel também afirma que a taxa de transferência de inferência com o Gaudi 3 deverá superar o NVIDIA H100 e H200 em médias de cerca de 50% e 30%, respectivamente, dependendo do modelo.
- Além de fazer algumas alegações ousadas de desempenho relativo, a Intel também está reivindicando grandes vitórias em eficiência. Uma média de 40% para eficiência energética de inferência nos modelos Llama de 7B e 70B parâmetros, e Falcon de 180B parâmetros.
Novos Xeons e Roteiro Gaudi
A Intel também anunciou um plano para desenvolver uma plataforma aberta para IA empresarial, na tentativa de “acelerar a implantação de sistemas GenAI seguros, habilitados por geração aumentada por recuperação”.
Além disso, a Intel também anunciou uma nova família de processadores Xeon voltados para a borda e a nuvem, e uma nova marca simplificada. A família Xeon 6 será composta por duas arquiteturas, Sierra Forest e Granite Rapids:
- Os processadores Intel Xeon 6 baseados em Sierra Forest com E-cores serão lançados este trimestre e visam cargas de trabalho de borda e de alta densidade, enquanto os processadores Intel Xeon 6 baseados em Granite Rapids com P-cores visarão cargas de trabalho intensivas em computação, como IA, mas serão lançados um pouco mais tarde.
- A Intel afirma que os processadores Xeon 6 com E-cores oferecem uma melhoria de desempenho por watt de 2,4 vezes e 2,7 vezes maior densidade de rack em comparação com processadores Intel Xeon de segunda geração.
- Os processadores Intel Xeon 6 com P-cores incorporam suporte de software para o formato de dados MXFP4, que pode reduzir significativamente a latência do token (até 6,5 vezes em comparação com Xeons de quarta geração usando FP16) e podem executar modelos Llama-2 de 70 bilhões de parâmetros.
Fonte: Forbes