Modelo Llama 3 da Meta promete ser o melhor entre as opções Open-Source

Meta llama

A Meta acaba de lançar os mais recentes modelos da sua série Llama de modelos de IA generativa de código aberto: Llama 3. Mais precisamente, a empresa disponibilizou dois modelos na sua nova família Llama 3, com o restante vindo em uma data futura não especificada.

A Meta descreve os novos modelos – Llama 3 8B, que contém 8 bilhões de parâmetros, e Llama 3 70B, com 70 bilhões de parâmetros – como um “salto significativo” em relação aos modelos Llama da geração anterior, Llama 2 8B e Llama 2 70B, em termos de desempenho.

Melhor performance em benchmarks

Créditos: Meta

Para apoiar essa afirmação, a Meta aponta para as pontuações dos modelos Llama 3 em benchmarks populares de IA como MMLU (que tenta medir conhecimento), ARC (que tenta medir aquisição de habilidades) e DROP (que testa o raciocínio sobre trechos de texto).

O Llama 3 8B supera outros modelos de código aberto como Mistral 7B e Google Gemma 7B em pelo menos 9 benchmarks. Já o Llama 3 70B é competitivo com modelos de ponta, vencendo o Gemini 1.5 Pro da Google em alguns testes e superando o Claude 3 Sonnet da Anthropic em 5 benchmarks.

Mais “dirigibilidade” e precisão

A Meta diz que os usuários dos novos modelos Llama podem esperar mais “dirigibilidade”, menor probabilidade de se recusar a responder perguntas e maior precisão em perguntas de curiosidades, história, campos STEM e recomendações gerais de codificação.

Isso se deve em parte a um conjunto de dados de treinamento muito maior: uma coleção de 15 trilhões de tokens, ou cerca de 750 bilhões de palavras – 7 vezes o tamanho do conjunto de dados Llama 2. Esse dataset inclui 4 vezes mais código e 5% de dados não ingleses (em cerca de 30 idiomas).

Melhorias em toxicidade e viés

A Meta afirma que desenvolveu novos pipelines de filtragem de dados para aumentar a qualidade dos dados de treinamento e atualizou suas ferramentas de segurança de IA generativa, Llama Guard e CybersecEval. Também está lançando uma nova ferramenta, Code Shield, para detectar código de modelos de IA que possam introduzir vulnerabilidades.

No entanto, a filtragem não é infalível e as ferramentas só vão até certo ponto. Será preciso ver como os modelos Llama 3 se saem no mundo real, incluindo testes de acadêmicos em benchmarks alternativos.

Disponibilidade e planos futuros

Os modelos Llama 3 já estão disponíveis para download e em breve estarão hospedados em uma ampla gama de plataformas de nuvem. Versões otimizadas para hardware de vários fornecedores também serão disponibilizadas.

E modelos ainda mais poderosos estão no horizonte. A Meta diz que está treinando modelos Llama 3 com mais de 400 bilhões de parâmetros, capazes de conversar em vários idiomas, entender imagens e outros dados além de texto. A empresa promete trazer muitas novidades em breve para a série Llama 3.

Fonte: Meta

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Rolar para cima