Claude 3 supera GPT-4 no Chatbot Arena pela primeira vez

Na terça-feira, o modelo de linguagem grande (LLM) Claude 3 Opus da Anthropic ultrapassou o GPT-4 da OpenAI (que alimenta o ChatGPT) pela primeira vez no Chatbot Arena, um popular quadro de liderança de crowdsourcing usado por pesquisadores de IA para medir as capacidades relativas dos modelos de linguagem de IA.

Com mais de 477 mil votos coletados, a Arena Elo da LMSYS classifica os modelos com base em um sistema de ranqueamento Elo, uma metodologia robusta e amplamente adotada em competições esportivas e jogos para avaliar a habilidade dos participantes.

[Arena Update]

70K+ new Arena votes🗳️ are in!

Claude-3 Haiku has impressed all, even reaching GPT-4 level by our user preference! Its speed, capabilities & context length are unmatched now in the market🔥

Congrats @AnthropicAI on the incredible Claude-3 launch!

More exciting… pic.twitter.com/p1Guuf0B3K
— lmsys.org (@lmsysorg) March 26, 2024

[Atualização da Arena]
Mais de 70 mil novos votos na Arena🗳️ chegaram!
Claude-3 Haiku impressionou a todos, chegando até ao nível GPT-4 pela preferência dos nossos usuários! Sua velocidade, capacidades e duração do contexto são incomparáveis agora no mercado🔥
Parabéns
@AnthropicAI
no incrível lançamento do Claude-3!
Atualizações mais emocionantes:
Starling-LM-7B-beta, PPO com modelo de recompensa 34B, subindo rapidamente na tabela de classificação. Agora o melhor modelo aberto 7B!
@cohere
O Command-R de agora se junta ao resultado da Arena🤖 em breve.
– @lmsysorg

Desde que o GPT-4 foi incluído no Chatbot Arena por volta de 10 de maio de 2023 (o quadro de liderança foi lançado em 3 de maio daquele ano), variações do GPT-4 têm consistentemente estado no topo do ranking até agora, então sua derrota na Arena é um momento notável na relativamente curta história dos modelos de linguagem de IA.

Um dos modelos menores da Anthropic, Haiku, também tem chamado a atenção com seu desempenho no ranking.

O sucesso do Claude 3 entre os usuários de assistentes de IA já fez com que alguns usuários de LLM substituíssem o ChatGPT em seu fluxo de trabalho diário, potencialmente roubando participação de mercado do ChatGPT. No X, o desenvolvedor de software Pietro Schirano escreveu: “Honestamente, a coisa mais louca sobre Claude 3 > GPT-4 é como é fácil simplesmente… mudar??”.

O Gemini Advanced do Google, com capacidade similar, também tem ganhado tração no espaço de assistentes de IA. Isso pode deixar a OpenAI em guarda por enquanto, mas a longo prazo, a empresa está preparando novos modelos. Espera-se que ela lance um grande novo sucessor do GPT-4 Turbo (seja chamado de GPT-4.5 ou GPT-5) em algum momento este ano, possivelmente no verão.

Está claro que o espaço de LLM estará cheio de competição em breve, o que pode resultar em mudanças mais interessantes no quadro de liderança do Chatbot Arena nos próximos meses e anos.

Os Gigantes da Inteligência Artificial

No topo do ranking, encontramos o Claude 3 Opus da Anthropic, o GPT-4-1106-preview e o GPT-4-0125-preview da OpenAI, todos compartilhando posições de liderança com pontuações de Elo extremamente próximas.

Isso evidencia não apenas a competição acirrada entre as entidades de pesquisa e desenvolvimento, mas também o refinamento contínuo das capacidades dos modelos de linguagem.

O restante do ranking

O top 10 dos Modelos de Linguagem de Grande Escala (LLMs) na LMSYS Chatbot Arena, com base nas informações mais recentes, são:

Claude 3 Opus da Anthropic e GPT-4-1106-preview da OpenAI (empatados na primeira posição) com uma pontuação de Elo de 1253 para o Claude 3 Opus e 1251 para o GPT-4-1106-preview.
GPT-4-0125-preview da OpenAI, logo atrás com uma pontuação de Elo de 1248.
Bard (Gemini Pro) da Google e Claude 3 Sonnet da Anthropic, ambos empatados na quarta posição, com pontuações de Elo de 1203 para o Bard e 1198 para o Claude 3 Sonnet.
GPT-4-0314 da OpenAI e Claude 3 Haiku da Anthropic, empatados na sexta posição com pontuações de Elo de 1185 para o GPT-4-0314 e 1179 para o Claude 3 Haiku.
GPT-4-0613 da OpenAI e Mistral-Large-2402, ambos empatados na oitava posição, com pontuações de Elo de 1158 para o GPT-4-0613 e 1157 para o Mistral-Large-2402.
Qwen1.5-72B-Chat da Alibaba na nona posição com uma pontuação de Elo de 1148.
Claude-1 da Anthropic e Mistral Medium, empatados na décima posição, com pontuações de Elo de 1146 para o Claude-1 e 1145 para o Mistral Medium.

Claude 3 supera GPT-4 no Chatbot Arena pela primeira vez

Os Gigantes da Inteligência Artificial

O restante do ranking

Veja também:

Deixe um comentário Cancelar resposta