Grok-1.5, a IA de Elon Musk: Novo modelo vem com melhorias

grok ai e chat-agpt

A xAI acaba de anunciar o lançamento do Grok-1.5, seu modelo mais recente de Inteligência Artificial capaz de compreender contextos longos e realizar raciocínio avançado. O Grok-1.5 estará disponível em breve na plataforma 𝕏 para os testadores iniciais e usuários existentes do Grok.

Há apenas duas semanas, a xAI compartilhou publicamente os pesos do modelo e a arquitetura da rede do Grok-1, oferecendo um vislumbre do progresso que a empresa havia alcançado até novembro passado. Desde então, a equipe tem trabalhado no aprimoramento das capacidades de raciocínio e resolução de problemas, resultando no Grok-1.5.

Desempenho Impressionante em Tarefas de Codificação e Matemática

Uma das melhorias mais notáveis do Grok-1.5 é seu desempenho em tarefas relacionadas à codificação e matemática. Nos testes realizados, o modelo atingiu uma pontuação de 50,6% no benchmark MATH e 90% no benchmark GSM8K, que abrangem uma ampla gama de problemas desde o ensino fundamental até competições do ensino médio.

Grok-1.5 obteve 74,1% no benchmark HumanEval, que avalia habilidades de geração de código e resolução de problemas.

Em comparação com outros modelos de linguagem de grande porte, como o GPT-4, Claude e Gemini, o Grok-1.5 demonstra um desempenho competitivo e até mesmo superior em alguns benchmarks, como o GSM8K e o HumanEval.

Compreensão de Contexto Longo

Uma nova característica do Grok-1.5 é a capacidade de processar contextos longos de até 128.000 tokens dentro de sua janela de contexto. Isso permite que o modelo tenha uma capacidade de memória até 16 vezes maior que o comprimento de contexto anterior, possibilitando a utilização de informações de documentos substancialmente mais longos.

O modelo é capaz de lidar com prompts mais longos e complexos, mantendo sua capacidade de seguir instruções à medida que sua janela de contexto se expande. Na avaliação Needle In A Haystack (NIAH), o Grok-1.5 demonstrou poderosas capacidades de recuperação de texto incorporado em contextos de até 128.000 tokens de comprimento, alcançando resultados perfeitos.

BenchmarkGrok-1Grok-1.5Mistral LargeClaude 2Claude 3 SonnetGemini Pro 1.5GPT-4Claude 3 Opus
MMLU73%
5-shot
81.3%
5-shot
81.2%
5-shot
75%
5-shot
79%
5-shot
83.7%
5-shot
86.4%
5-shot
86.8
5-shot
MATH23.9%
4-shot
50.6%
4-shot
40.5%
4-shot
58.5%
4-shot
52.9%
4-shot
61%
4-shot
GSM8K62.9
8-shot
90%
8-shot
81%
5-shot
88%
0-shot CoT
92.3%
0-shot CoT
91.7%
11-shot
92%
5-shot
95%
0-shot CoT
HumanEval63.2%
0-shot
74.1%
0-shot
45.1%
0-shot
70%
0-shot
73%
0-shot
71.9%
0-shot
67%
0-shot
84.9%
0-shot
Tabela comparativa entre diferentes LLM’s. Entre elas estão Mistral, Claude e GPT. Crédito xAI

Infraestrutura Robusta e Flexível

Para realizar pesquisas de ponta com modelos de linguagem de grande porte (LLMs) em clusters massivos de GPU, é necessária uma infraestrutura robusta e flexível. O Grok-1.5 é construído com base em um framework de treinamento distribuído personalizado, que utiliza JAX, Rust e Kubernetes. Essa pilha de treinamento permite que a equipe da xAI prototipe ideias e treine novas arquiteturas em escala com esforço mínimo.

Um dos principais desafios do treinamento de LLMs em grandes clusters de computação é maximizar a confiabilidade e o tempo de atividade do trabalho de treinamento. O orquestrador de treinamento personalizado da xAI garante que nós problemáticos sejam detectados e ejetados automaticamente do trabalho de treinamento.

A equipe otimizou o checkpointing, o carregamento de dados e as reinicializações de trabalhos de treinamento para minimizar o tempo de inatividade em caso de falha.

Próximos Passos

O Grok-1.5 estará disponível em breve para os testadores iniciais, e a xAI está ansiosa para receber feedback e melhorar ainda mais o modelo. Conforme o Grok-1.5 for gradualmente disponibilizado para um público mais amplo, a empresa planeja introduzir vários novos recursos nos próximos dias.

Fonte: xAI

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Rolar para cima