A xAI acaba de anunciar o lançamento do Grok-1.5, seu modelo mais recente de Inteligência Artificial capaz de compreender contextos longos e realizar raciocínio avançado. O Grok-1.5 estará disponível em breve na plataforma 𝕏 para os testadores iniciais e usuários existentes do Grok.
Há apenas duas semanas, a xAI compartilhou publicamente os pesos do modelo e a arquitetura da rede do Grok-1, oferecendo um vislumbre do progresso que a empresa havia alcançado até novembro passado. Desde então, a equipe tem trabalhado no aprimoramento das capacidades de raciocínio e resolução de problemas, resultando no Grok-1.5.
Desempenho Impressionante em Tarefas de Codificação e Matemática
Uma das melhorias mais notáveis do Grok-1.5 é seu desempenho em tarefas relacionadas à codificação e matemática. Nos testes realizados, o modelo atingiu uma pontuação de 50,6% no benchmark MATH e 90% no benchmark GSM8K, que abrangem uma ampla gama de problemas desde o ensino fundamental até competições do ensino médio.
Grok-1.5 obteve 74,1% no benchmark HumanEval, que avalia habilidades de geração de código e resolução de problemas.
Em comparação com outros modelos de linguagem de grande porte, como o GPT-4, Claude e Gemini, o Grok-1.5 demonstra um desempenho competitivo e até mesmo superior em alguns benchmarks, como o GSM8K e o HumanEval.
Compreensão de Contexto Longo
Uma nova característica do Grok-1.5 é a capacidade de processar contextos longos de até 128.000 tokens dentro de sua janela de contexto. Isso permite que o modelo tenha uma capacidade de memória até 16 vezes maior que o comprimento de contexto anterior, possibilitando a utilização de informações de documentos substancialmente mais longos.
O modelo é capaz de lidar com prompts mais longos e complexos, mantendo sua capacidade de seguir instruções à medida que sua janela de contexto se expande. Na avaliação Needle In A Haystack (NIAH), o Grok-1.5 demonstrou poderosas capacidades de recuperação de texto incorporado em contextos de até 128.000 tokens de comprimento, alcançando resultados perfeitos.
Benchmark | Grok-1 | Grok-1.5 | Mistral Large | Claude 2 | Claude 3 Sonnet | Gemini Pro 1.5 | GPT-4 | Claude 3 Opus |
---|---|---|---|---|---|---|---|---|
MMLU | 73% 5-shot | 81.3% 5-shot | 81.2% 5-shot | 75% 5-shot | 79% 5-shot | 83.7% 5-shot | 86.4% 5-shot | 86.8 5-shot |
MATH | 23.9% 4-shot | 50.6% 4-shot | — | — | 40.5% 4-shot | 58.5% 4-shot | 52.9% 4-shot | 61% 4-shot |
GSM8K | 62.9 8-shot | 90% 8-shot | 81% 5-shot | 88% 0-shot CoT | 92.3% 0-shot CoT | 91.7% 11-shot | 92% 5-shot | 95% 0-shot CoT |
HumanEval | 63.2% 0-shot | 74.1% 0-shot | 45.1% 0-shot | 70% 0-shot | 73% 0-shot | 71.9% 0-shot | 67% 0-shot | 84.9% 0-shot |
Infraestrutura Robusta e Flexível
Para realizar pesquisas de ponta com modelos de linguagem de grande porte (LLMs) em clusters massivos de GPU, é necessária uma infraestrutura robusta e flexível. O Grok-1.5 é construído com base em um framework de treinamento distribuído personalizado, que utiliza JAX, Rust e Kubernetes. Essa pilha de treinamento permite que a equipe da xAI prototipe ideias e treine novas arquiteturas em escala com esforço mínimo.
Um dos principais desafios do treinamento de LLMs em grandes clusters de computação é maximizar a confiabilidade e o tempo de atividade do trabalho de treinamento. O orquestrador de treinamento personalizado da xAI garante que nós problemáticos sejam detectados e ejetados automaticamente do trabalho de treinamento.
A equipe otimizou o checkpointing, o carregamento de dados e as reinicializações de trabalhos de treinamento para minimizar o tempo de inatividade em caso de falha.
Próximos Passos
O Grok-1.5 estará disponível em breve para os testadores iniciais, e a xAI está ansiosa para receber feedback e melhorar ainda mais o modelo. Conforme o Grok-1.5 for gradualmente disponibilizado para um público mais amplo, a empresa planeja introduzir vários novos recursos nos próximos dias.
Fonte: xAI