Molmo da AI2 mostra que o código aberto pode atender e superar modelos multimodais fechados

O senso comum é que empresas como Google, OpenAI e Anthropic, com reservas de dinheiro sem fundo e centenas de pesquisadores de primeira linha, são as únicas que podem criar um modelo de fundação de última geração. Mas, como uma delas notou, elas “não têm fosso” — e a AI2 mostrou isso hoje com o lançamento do Molmo, um modelo de IA multimodal que combina com o melhor delas, sendo também pequeno, gratuito e verdadeiramente de código aberto.

Para ser claro, Molmo (modelo de linguagem aberta multimodal) é um mecanismo de compreensão visual, não um chatbot de serviço completo como o ChatGPT. Ele não tem uma API, não está pronto para integração empresarial e não pesquisa na web para você ou para seus próprios propósitos. Você pode pensar nele como a parte desses modelos que vê uma imagem, a entende e pode descrever ou responder perguntas sobre ela.

Molmo (disponível em variantes de parâmetros 72B, 7B e 1B), como outros modelos multimodais, é capaz de identificar e responder perguntas sobre quase qualquer situação ou objeto cotidiano. Como você usa esta cafeteira? Quantos cachorros nesta imagem estão com a língua de fora? Quais opções neste menu são veganas? Quais são as variáveis neste diagrama? É o tipo de tarefa de compreensão visual que vimos demonstrada com vários níveis de sucesso e latência por anos.

O que é diferente não são necessariamente os recursos do Molmo (que você pode ver na demonstração abaixo ou testar aqui), mas como ele os alcança.