A Cerebras, com sede no Vale do Silício, lançou sete modelos todos trained em seu supercomputador AI chamado Andromeda, incluindo modelos menores de 111 milhões de parâmetros de linguagem para um modelo maior de 13 bilhões de parâmetros.
“Há um grande movimento para fechar o que foi aberto na IA… não é surpreendente, pois agora há muito dinheiro nisso”, disse Andrew Feldman, fundador e CEO da Cerebras. “A empolgação na comunidade, o progresso que fizemos, deve-se em grande parte ao fato de ela ser tão aberta.”
Modelos com mais parâmetros são capazes de realizar funções generativas mais complexas.
OpenAI’s chatbot ChatGPT lançado no final do ano passado, por exemplo, tem 175 bilhões de parâmetros e pode produzir poesia e pesquisa, o que ajudou a atrair grande interesse e financiamento para a IA de forma mais ampla.
A Cerebras disse que os modelos menores podem ser implantados em telefones ou alto-falantes inteligentes, enquanto os maiores rodam em PCs ou servidores, embora tarefas complexas como resumo de grandes passagens exijam modelos maiores.
No entanto, Karl Freund, consultor de chips da Cambrian AI, disse que maior nem sempre é melhor.
“Existem alguns artigos interessantes publicados que mostram que (um modelo menor) pode ser preciso se você o treinar mais”, disse Freund. “Portanto, há uma troca entre maiores e melhores treinados.”
Feldman disse que seu maior modelo levou pouco mais de uma semana para treinar, trabalho que normalmente pode levar vários meses, graças à arquitetura do sistema Cerebras, que inclui um chip do tamanho de um prato construído para treinamento de IA.
A maioria dos modelos de IA hoje é treinada nos chips da Nvidia Corp, mas cada vez mais startups como a Cerebras estão tentando conquistar participação nesse mercado.
Os modelos treinados em máquinas Cerebras também podem ser usados em sistemas Nvidia para treinamento ou customização, disse Feldman.