O NousCoder-14B da Nous Research enfrenta o Claude Code na batalha pela supremacia no desenvolvimento da IA
Enquanto os programadores de todo o mundo estão entusiasmados com o Claude Code da Anthropic e a sua capacidade aparentemente mágica de criar aplicações completas a partir de descrições simples, a startup de IA de código aberto Nous Research lançou a sua própria bomba no mundo da programação. O seu novo modelo NousCoder-14B promete igualar ou superar sistemas proprietários muito maiores — e foi desenvolvido em apenas quatro dias, utilizando hardware de ponta. Para as empresas que exploram soluções de desenvolvimento de IA, isto representa um momento fascinante em que as alternativas de código aberto estão a desafiar seriamente o domínio das grandes empresas tecnológicas no domínio das ferramentas de codificação baseadas em IA.
O momento não poderia ser mais oportuno. As redes sociais têm sido inundadas por programadores que partilham testemunhos entusiásticos sobre as capacidades do Claude Code, tendo Jaana Dogan, da Google, destacado que a IA recriou o projeto de sistema distribuído da sua equipa — que demorou um ano a ser desenvolvido — em apenas uma hora. Agora, a Nous Research aposta que a transparência e o desenvolvimento de código aberto podem competir de igual para igual com estes sistemas fechados.
Um novo ponto de referência para modelos de programação de IA de código aberto
O NousCoder-14B alcançou uma taxa de precisão de 67,87% no LiveCodeBench v6, uma avaliação rigorosa que testa modelos de IA em problemas de programação competitiva. Isto representa uma melhoria significativa de 7,08 pontos percentuais em relação ao seu modelo de base, o Qwen3-14B da Alibaba. Mas o que realmente importa não é apenas o desempenho — é a transparência radical por trás da forma como o alcançaram.
Ao contrário do que acontece normalmente com os lançamentos de modelos de IA, em que as empresas partilham apenas os resultados finais, a Nous Research publicou tudo: o ambiente completo de aprendizagem por reforço, o conjunto de testes de desempenho, o sistema de treino e até o código da infraestrutura desenvolvido com base na sua estrutura Atropos. Qualquer investigador com capacidade computacional suficiente pode agora reproduzir, modificar ou ampliar este trabalho.
Joe Li, o investigador que liderou o projeto, trouxe uma perspetiva pessoal única para o desenvolvimento. Sendo ele próprio um antigo programador de competição, comparou a trajetória de melhoria do modelo à sua própria percurso no Codeforces, a plataforma onde os programadores obtêm classificações com base no desempenho em competições. O salto do modelo de uma classificação de cerca de 1600-1750 para 2100-2200 espelhou a própria trajetória de melhoria de dois anos de Li — exceto que a IA conseguiu isso em 96 horas.
A diferença de eficiência entre o ser humano e a aprendizagem automática
É aqui que as coisas se tornam interessantes para quem reflete sobre o papel da IA nos negócios e na vida quotidiana: embora o modelo tenha aprendido mais rapidamente em termos de tempo, precisou de um número significativamente maior de exemplos. Li resolveu cerca de 1 000 problemas durante o seu período de aperfeiçoamento de dois anos, enquanto o NousCoder-14B precisou de 24 000 problemas para alcançar um progresso semelhante. Os seres humanos continuam a ser aprendizes notavelmente mais eficientes em termos de amostragem, pelo menos por enquanto.
Por dentro do processo de treino que impulsiona a automação de processos com IA
A abordagem técnica subjacente ao NousCoder-14B permite compreender como os sistemas modernos de IA aprendem a raciocinar sobre problemas complexos. O treino baseia-se em «recompensas verificáveis»: o modelo gera soluções em código, essas soluções são executadas em casos de teste e o sistema recebe um feedback simples de aprovação ou reprovação. Este sinal binário, embora conceptualmente simples, requer uma infraestrutura sofisticada para ser executado em grande escala.
A Nous Research utilizou a plataforma de computação em nuvem da Modal para executar código em ambiente sandbox em paralelo em 24 000 problemas de treino, cada um contendo, em média, centenas de casos de teste. O sistema teve de verificar se o código gerado produzia resultados corretos dentro de restrições rigorosas: 15 segundos e 4 gigabytes de memória.
O treino utilizou a Otimização Dinâmica da Política de Amostragem (DAPO), com uma inovação fundamental denominada «amostragem dinâmica» — descartando exemplos de treino em que o modelo resolveu todas as tentativas ou falhou completamente, uma vez que estes não fornecem qualquer sinal de aprendizagem útil. Os investigadores também utilizaram a «extensão iterativa do contexto», começando com uma janela de contexto de 32 000 tokens e expandindo para 40 000 tokens durante o treino, para depois aumentar para 80 000 tokens durante a avaliação, com vista a obter resultados ótimos.
O problema da escassez de dados que poderá atrasar o progresso da IA
Escondida no relatório técnico de Li está uma conclusão com implicações importantes para o futuro do desenvolvimento da IA: eles esgotaram, na prática, a maior parte dos problemas de programação competitiva de alta qualidade existentes no mundo. Os 24 000 problemas do seu conjunto de dados de treino representam «uma parte significativa de todos os problemas de programação competitiva facilmente acessíveis e verificáveis num formato de conjunto de dados padronizado».
Esta limitação de dados reflete as preocupações crescentes em todo o setor da IA. Enquanto a capacidade computacional continua a aumentar de forma previsível, os dados de treino de alta qualidade são cada vez mais escassos. No caso específico da programação competitiva, o desafio é ainda mais premente, uma vez que este domínio exige problemas com soluções corretas conhecidas que possam ser verificadas automaticamente — o que torna a geração de dados sintéticos consideravelmente mais difícil do que noutras aplicações de IA.
Li identificou uma possível solução: treinar modelos não apenas para resolver problemas, mas para gerar problemas que possam ser resolvidos, permitindo uma forma de jogo contra si próprio semelhante às técnicas que se revelaram bem-sucedidas em sistemas de IA dedicados a jogos. «Assim que a geração sintética de problemas for resolvida, o jogo contra si próprio torna-se uma direção muito interessante», observou ele.
Uma aposta de 65 milhões de dólares no futuro da IA de código aberto
A Nous Research conquistou uma posição diferenciada no panorama da IA como uma empresa empenhada em lançamentos de código aberto que competem com alternativas proprietárias. A empresa angariou 65 milhões de dólares em financiamento liderado pela Paradigm, a empresa de capital de risco especializada em criptomoedas, o que reflete o crescente interesse em abordagens descentralizadas para o desenvolvimento da IA.
Entre as versões anteriores contam-se o Hermes 4, que, segundo consta, superou o ChatGPT sem restrições de conteúdo, e o DeepHermes-3, descrito como o primeiro «modelo de raciocínio ativável», que permite aos utilizadores ativar capacidades de raciocínio alargadas sempre que necessário.
A identidade visual da empresa, inspirada no estilo anime, e a sua abordagem comunitária têm suscitado tanto entusiasmo como cepticismo, com alguns críticos a questionarem se o estilo não estará a ofuscar o conteúdo. Continuam os debates técnicos sobre se o NousCoder-14B está otimizado para fluxos de trabalho de programação «agentes» ou para a resolução pontual de problemas — uma distinção que reveste grande importância para o desenvolvimento prático de software. Este desenvolvimento ilustra a tendência mais ampla de como a IA está a transformar a forma como abordamos desafios empresariais anteriormente impossíveis de resolver.
O que se segue para as ferramentas de desenvolvimento de IA
A investigação aponta para vários desenvolvimentos cruciais necessários para que as ferramentas de programação de IA continuem a melhorar. A aprendizagem por reforço em várias iterações está no topo da lista — atualmente, os modelos recebem apenas um feedback final de aprovação ou reprovação, mas os problemas de programação competitiva incluem normalmente sinais intermédios, como erros de compilação e resultados parciais de testes, que poderiam orientar a melhoria iterativa.
Talvez o mais ambicioso seja o facto de a capacidade de gerar problemas de programação poder resolver a escassez de dados, permitindo simultaneamente a criação de verdadeiros sistemas de aprendizagem autónoma. Como observou Li, «os seres humanos são excelentes a gerar problemas interessantes e úteis para outros programadores competitivos, mas ainda existe uma lacuna significativa nas capacidades dos LLM no que diz respeito à geração criativa de problemas.»
O NousCoder-14B já está disponível no Hugging Face sob uma licença Apache 2.0, com a pilha de treino completa do Atropos publicada em simultâneo. Para empresas e programadores que procuram ferramentas de desenvolvimento baseadas em IA, isto representa tanto uma nova opção poderosa como um vislumbre de um futuro em que a linha divisória entre as capacidades de programação humanas e as das máquinas continua a esbater-se — e onde a IA não se limita a escrever código, mas aprende por si própria a tornar-se um programador melhor do que alguma vez imaginámos ser possível.
Escrito por
Oliver K.G
Oliver K.G é o fundador da AI Meets Life, uma publicação que ajuda os profissionais de negócios dos EUA a ignorar o ruído e a aplicar a IA onde realmente importa — nas suas equipas, fluxos de trabalho e resultados financeiros. Acompanha as ferramentas, tendências e decisões que moldam o futuro do trabalho.
Pingback:Por que o desenvolvimento de negócios em IA deve centrar-se no crescimento e não nos despedimentos - AI Meets Life
Os comentários estão encerrados.