Grok-1.5, a IA de Elon Musk: Novo modelo vem com melhorias

A xAI acaba de anunciar o lançamento do Grok-1.5, seu modelo mais recente de Inteligência Artificial capaz de compreender contextos longos e realizar raciocínio avançado. O Grok-1.5 estará disponível em breve na plataforma 𝕏 para os testadores iniciais e usuários existentes do Grok.

Há apenas duas semanas, a xAI compartilhou publicamente os pesos do modelo e a arquitetura da rede do Grok-1, oferecendo um vislumbre do progresso que a empresa havia alcançado até novembro passado. Desde então, a equipe tem trabalhado no aprimoramento das capacidades de raciocínio e resolução de problemas, resultando no Grok-1.5.

Desempenho Impressionante em Tarefas de Codificação e Matemática

Uma das melhorias mais notáveis do Grok-1.5 é seu desempenho em tarefas relacionadas à codificação e matemática. Nos testes realizados, o modelo atingiu uma pontuação de 50,6% no benchmark MATH e 90% no benchmark GSM8K, que abrangem uma ampla gama de problemas desde o ensino fundamental até competições do ensino médio.

Grok-1.5 obteve 74,1% no benchmark HumanEval, que avalia habilidades de geração de código e resolução de problemas.

Em comparação com outros modelos de linguagem de grande porte, como o GPT-4, Claude e Gemini, o Grok-1.5 demonstra um desempenho competitivo e até mesmo superior em alguns benchmarks, como o GSM8K e o HumanEval.

Compreensão de Contexto Longo

Uma nova característica do Grok-1.5 é a capacidade de processar contextos longos de até 128.000 tokens dentro de sua janela de contexto. Isso permite que o modelo tenha uma capacidade de memória até 16 vezes maior que o comprimento de contexto anterior, possibilitando a utilização de informações de documentos substancialmente mais longos.

O modelo é capaz de lidar com prompts mais longos e complexos, mantendo sua capacidade de seguir instruções à medida que sua janela de contexto se expande. Na avaliação Needle In A Haystack (NIAH), o Grok-1.5 demonstrou poderosas capacidades de recuperação de texto incorporado em contextos de até 128.000 tokens de comprimento, alcançando resultados perfeitos.

Benchmark	Grok-1	Grok-1.5	Mistral Large	Claude 2	Claude 3 Sonnet	Gemini Pro 1.5	GPT-4	Claude 3 Opus
MMLU	73% 5-shot	81.3% 5-shot	81.2% 5-shot	75% 5-shot	79% 5-shot	83.7% 5-shot	86.4% 5-shot	86.8 5-shot
MATH	23.9% 4-shot	50.6% 4-shot	—	—	40.5% 4-shot	58.5% 4-shot	52.9% 4-shot	61% 4-shot
GSM8K	62.9 8-shot	90% 8-shot	81% 5-shot	88% 0-shot CoT	92.3% 0-shot CoT	91.7% 11-shot	92% 5-shot	95% 0-shot CoT
HumanEval	63.2% 0-shot	74.1% 0-shot	45.1% 0-shot	70% 0-shot	73% 0-shot	71.9% 0-shot	67% 0-shot	84.9% 0-shot

Tabela comparativa entre diferentes LLM’s. Entre elas estão Mistral, Claude e GPT. Crédito xAI

Infraestrutura Robusta e Flexível

Para realizar pesquisas de ponta com modelos de linguagem de grande porte (LLMs) em clusters massivos de GPU, é necessária uma infraestrutura robusta e flexível. O Grok-1.5 é construído com base em um framework de treinamento distribuído personalizado, que utiliza JAX, Rust e Kubernetes. Essa pilha de treinamento permite que a equipe da xAI prototipe ideias e treine novas arquiteturas em escala com esforço mínimo.

Um dos principais desafios do treinamento de LLMs em grandes clusters de computação é maximizar a confiabilidade e o tempo de atividade do trabalho de treinamento. O orquestrador de treinamento personalizado da xAI garante que nós problemáticos sejam detectados e ejetados automaticamente do trabalho de treinamento.

A equipe otimizou o checkpointing, o carregamento de dados e as reinicializações de trabalhos de treinamento para minimizar o tempo de inatividade em caso de falha.

Próximos Passos

O Grok-1.5 estará disponível em breve para os testadores iniciais, e a xAI está ansiosa para receber feedback e melhorar ainda mais o modelo. Conforme o Grok-1.5 for gradualmente disponibilizado para um público mais amplo, a empresa planeja introduzir vários novos recursos nos próximos dias.

Fonte: xAI