Pesquisadores da Apple desenvolvem IA que pode 'ver' e entender o contexto da tela

A equipe de pesquisadores da Apple desenvolveu um novo sistema de inteligência artificial chamado ReALM (Reference Resolution As Language Modeling) que é capaz de entender referências ambíguas a entidades exibidas na tela, além do contexto conversacional e de fundo.

Essa inovação permite interações mais naturais com assistentes de voz, de acordo com um artigo publicado na última sexta-feira.

O ReALM aborda o complexo problema de resolução de referências, incluindo a compreensão de elementos visuais na tela, transformando-o em uma tarefa de modelagem de linguagem pura.

Essa abordagem permite que o sistema obtenha ganhos substanciais de desempenho em comparação com os métodos existentes.

Aprimorando os assistentes de conversação

Para lidar com as referências baseadas na tela, uma das principais inovações do ReALM é a reconstrução da tela usando entidades parseadas e suas localizações para gerar uma representação textual que capture o layout visual.

Os pesquisadores demonstraram que essa técnica, combinada com o ajuste fino de modelos de linguagem especificamente para a resolução de referências, pode superar o GPT-4 nessa tarefa.

Os pesquisadores escreveram: “Demonstramos grandes melhorias em relação a um sistema existente com funcionalidade semelhante em diferentes tipos de referências, com nosso menor modelo obtendo ganhos absolutos de mais de 5% para referências na tela. Nossos modelos maiores superam substancialmente o GPT-4.”

Aplicações práticas e limitações

O trabalho destaca o potencial dos modelos de linguagem focados para lidar com tarefas como a resolução de referências em sistemas de produção, onde o uso de modelos massivos de ponta a ponta é inviável devido a restrições de latência ou computação.

Ao publicar a pesquisa, a Apple sinaliza seus investimentos contínuos para tornar a Siri e outros produtos mais conversacionais e conscientes do contexto.

No entanto, os pesquisadores alertam que depender do parsing automatizado das telas tem limitações. Lidar com referências visuais mais complexas, como distinguir entre várias imagens, exigiria provavelmente a incorporação de técnicas de visão computacional e multimodais.

A Apple corre para fechar a lacuna de IA enquanto os rivais disparam

Embora esteja atrás de seus rivais na corrida para dominar o cenário da IA, a Apple está fazendo avanços significativos na pesquisa de inteligência artificial.

Desde modelos multimodais que combinam visão e linguagem, passando por ferramentas de animação baseadas em IA, até técnicas para construir IA especializada de alto desempenho com um orçamento limitado, uma série constante de avanços dos laboratórios de pesquisa da empresa sugere que suas ambições de IA estão se intensificando rapidamente.

Apesar de seus profundos recursos, lealdade à marca, engenharia de elite e um portfólio de produtos altamente integrado, a fabricante do iPhone enfrenta uma concorrência acirrada de gigantes como Google, Microsoft, Amazon e OpenAI.

Na aguardada Worldwide Developers Conference em junho, a Apple deve apresentar uma nova estrutura de modelo de linguagem grande, um chatbot “Apple GPT” e outros recursos alimentados por IA em todo o seu ecossistema.

Fonte: Venture Beat