Ir diretamente para o conteúdo

Como a automatização de processos com IA está a transformar o desenvolvimento de código

A programação de IA de código aberto recebe um grande impulso com o NousCoder-14B a assumir o código do Claude

A corrida pela programação com IA acaba de ficar mais interessante. Enquanto os programadores têm vindo a comentar o Claude Code da Anthropic desde o dia de Ano Novo, a startup de IA de código aberto Nous Research lançou discretamente a sua própria bomba: o NousCoder-14B, um modelo de programação que iguala ou supera vários sistemas proprietários de maior dimensão. O que torna isto particularmente atraente para as empresas que exploram o desenvolvimento de IA é o facto de todo o sistema ter sido treinado em apenas quatro dias utilizando 48 dos mais recentes processadores B200 da Nvidia — e tudo ser totalmente de código aberto.

Este momento não é por acaso. O Claude Code tem dominado as redes sociais com testemunhos impressionantes de programadores que o viram recriar, em poucas horas, sistemas complexos que as suas equipas demoraram meses a construir. Jaana Dogan, da Google, tornou-se viral ao descrever como o Claude Code gerou um sistema de orquestração de agentes distribuídos a partir de um prompt de três parágrafos — algo que a sua equipa levou um ano a desenvolver. Mas a Nous Research aposta que a transparência e as alternativas de código aberto podem competir de igual para igual com os grandes players.

A transparência radical por trás do desenvolvimento da IA que realmente funciona

O que distingue o NousCoder-14B não é apenas o seu desempenho, mas sim a abertura sem precedentes desta publicação. A Nous Research não se limitou a publicar os pesos do modelo (o que já é raro no setor). Divulgou o ambiente completo de aprendizagem por reforço, o conjunto de testes de desempenho, o sistema de treino e toda a sua estrutura Atropos. Isto significa que qualquer investigador com recursos computacionais suficientes pode reproduzir, verificar ou ampliar o seu trabalho.

O modelo atinge uma taxa de precisão de 67,87% no LiveCodeBench v6, um teste de avaliação padronizado que avalia problemas de programação competitiva. Trata-se de uma melhoria de 7,08 pontos percentuais em relação ao seu modelo de base, o Qwen3-14B da Alibaba. Mas o que realmente importa é a forma como chegaram a esse resultado.

Joe Li, o investigador responsável pelo treino do modelo, trouxe uma perspetiva pessoal única para o projeto. Sendo ele próprio um antigo programador competitivo, comparou a trajetória de melhoria do modelo com a sua própria trajetória na Codeforces, a plataforma de programação competitiva. O salto do modelo de uma classificação de cerca de 1600-1750 para 2100-2200 reflete o progresso que levou Li a quase dois anos de prática contínua entre os 14 e os 16 anos. O modelo alcançou esta melhoria equivalente em quatro dias.

A infraestrutura por trás da IA que aprende a programar

A arquitetura técnica revela o quão sofisticado se tornou o treino da IA moderna. O sistema utiliza «recompensas verificáveis» — gerando soluções de código, executando-as em casos de teste e recebendo um feedback binário simples: correto ou incorreto. Embora seja conceptualmente simples, a execução desta abordagem em grande escala requer uma infraestrutura robusta.

Utilizando a plataforma de computação em nuvem da Modal, a equipa executou código em ambiente sandbox em paralelo em 24 000 problemas de treino, cada um contendo, em média, centenas de casos de teste. Cada solução deve produzir resultados corretos em 15 segundos e com 4 gigabytes de memória. O treino utilizou a Otimização Dinâmica da Política de Amostragem (DAPO), com uma inovação fundamental que consiste em descartar exemplos em que o modelo resolveu todas as tentativas ou falhou em todas — uma vez que estes não fornecem nenhum sinal de aprendizagem útil.

O problema dos dados que pode atrasar o progresso da IA

Escondida no relatório técnico de Li encontra-se uma conclusão com implicações enormes para o setor da IA: basicamente, esgotaram-se os dados de treino de alta qualidade para a programação competitiva. Os 24 000 problemas utilizados para o treino representam «uma parte significativa de todos os problemas de programação competitiva facilmente acessíveis e verificáveis num formato de conjunto de dados padronizado».

Isto reflete as crescentes preocupações em todo o setor da IA relativamente às limitações dos dados. Enquanto a capacidade computacional continua a expandir-se de acordo com princípios económicos e de engenharia, os dados de treino são cada vez mais limitados. No caso específico da programação competitiva, o desafio é particularmente acentuado, uma vez que este domínio requer problemas com soluções corretas conhecidas que possam ser verificadas automaticamente.

Li identificou uma possível solução: treinar modelos não apenas para resolver problemas, mas para gerar problemas que possam ser resolvidos, permitindo o auto-jogo, à semelhança das técnicas que se revelaram bem-sucedidas em sistemas de IA dedicados a jogos. «Assim que a geração sintética de problemas for resolvida, o auto-jogo torna-se uma direção muito interessante», escreveu ele.

O que isto significa para as aplicações empresariais

Para os líderes empresariais que estão a considerar ferramentas de codificação baseadas em IA, o NousCoder-14B representa algo significativo: a prova de que as alternativas de código aberto podem competir com os sistemas proprietários, oferecendo ao mesmo tempo total transparência quanto às suas capacidades e limitações. Ao contrário das soluções de «caixa preta», é possível ver exatamente como este modelo foi treinado e o que ele é capaz de fazer. Para as organizações que procuram otimizar as operações, estas capacidades de codificação de IA representam uma das muitas oportunidades para aproveitar a automação com vista a ganhos de eficiência, à semelhança de como a automação de processos de IA reduz os custos operacionais em 40% noutras funções empresariais.

No entanto, há algumas ressalvas importantes. Os modelos atuais funcionam melhor em problemas de codificação pontuais, em vez do desenvolvimento iterativo e em várias etapas que caracteriza os projetos de software reais. Os investigadores identificaram a aprendizagem por reforço em várias etapas como um próximo passo fundamental — treinar modelos para incorporar feedback, como erros de compilação e testes falhados, ao longo de várias tentativas.

A aposta de 65 milhões de dólares no código aberto

A Nous Research conquistou uma posição de destaque graças ao seu compromisso com lançamentos de código aberto que competem com alternativas proprietárias. O financiamento de 65 milhões de dólares, liderado pela empresa de capital de risco especializada em criptomoedas Paradigm, reflete o crescente interesse em abordagens descentralizadas para o treino de IA. Entre os lançamentos anteriores contam-se o Hermes 4, que, segundo relatos, supera o ChatGPT sem restrições de conteúdo, e o DeepHermes-3, o primeiro «modelo de raciocínio ativável».

A empresa enfrenta algum cepticismo — os críticos questionam se a sua imagem de marca ao estilo anime privilegia a forma em detrimento do conteúdo, e as comparações técnicas com alternativas como os modelos Nemotron da Nvidia continuam a ser feitas. No entanto, a transparência radical deste lançamento fornece provas concretas das suas capacidades.

O que levou dois anos de prática dedicada a Li para conseguir, um sistema de IA replicou em 96 horas. Ele precisou de 1 000 problemas; o modelo precisou de 24 000. Mas a trajetória é clara: estes sistemas estão a aproximar-se rapidamente de um desempenho ao nível humano em tarefas de programação estruturadas e estão a aprender a ensinar-se a si próprios. À medida que a IA continua a remodelar a forma como criamos software, a questão não é se as máquinas podem aprender a programar — é se em breve se tornarão melhores professores do que nós alguma vez fomos.

Editor Aimeetslife

Escrito por

Oliver K.G

Oliver K.G é o fundador da AI Meets Life, uma publicação que ajuda os profissionais de negócios dos EUA a ignorar o ruído e a aplicar a IA onde realmente importa — nas suas equipas, fluxos de trabalho e resultados financeiros. Acompanha as ferramentas, tendências e decisões que moldam o futuro do trabalho.