Der „NousCoder-14B“ von Nous Research tritt im Kampf um die Vorherrschaft in der KI-Entwicklung gegen „Claude Code“ an
Gerade als Entwickler weltweit von Anthropics „Claude Code“ und dessen fast schon magischer Fähigkeit, ganze Anwendungen aus einfachen Beschreibungen zu erstellen, schwärmen, hat das Open-Source-KI-Startup Nous Research seine eigene Sensation im Bereich der Programmierung vorgestellt. Ihr neues Modell „NousCoder-14B“ verspricht, mit weitaus größeren proprietären Systemen gleichzuziehen oder diese sogar zu übertreffen – und das haben sie in nur vier Tagen mit modernster Hardware entwickelt. Für Unternehmen, die nach KI-Entwicklungslösungen suchen, ist dies ein faszinierender Moment, in dem Open-Source-Alternativen die Dominanz der Big Tech-Unternehmen bei KI-gestützten Programmierwerkzeugen ernsthaft in Frage stellen.
Der Zeitpunkt könnte dramatischer nicht sein. Die sozialen Medien werden derzeit von Entwicklern überschwemmt, die atemlose Erfahrungsberichte über die Fähigkeiten von Claude Code teilen, wobei Jaana Dogan von Google bekanntlich anmerkte, dass die KI das einjährige Projekt ihres Teams zum Thema verteilte Systeme in nur einer Stunde nachgebildet habe. Nun setzt Nous Research darauf, dass Transparenz und Open-Source-Entwicklung diesen geschlossenen Systemen direkt Konkurrenz machen können.
Ein neuer Maßstab für Open-Source-KI-Modellierungsansätze
NousCoder-14B erzielte bei LiveCodeBench v6, einem strengen Testverfahren, das KI-Modelle anhand von Problemen aus dem Bereich der Wettbewerbsprogrammierung prüft, eine Genauigkeitsrate von 67,87 %. Dies entspricht einer deutlichen Verbesserung um 7,08 Prozentpunkte gegenüber dem Basismodell, Alibabas Qwen3-14B. Doch das Besondere daran ist nicht nur die Leistung, sondern die radikale Transparenz hinsichtlich der Vorgehensweise, mit der dieses Ergebnis erzielt wurde.
Im Gegensatz zu üblichen Veröffentlichungen von KI-Modellen, bei denen Unternehmen lediglich die Endergebnisse offenlegen, hat Nous Research alles veröffentlicht: die komplette Umgebung für das verstärkende Lernen, die Benchmark-Suite, das Trainings-Harness und sogar den Infrastrukturcode, der auf ihrem Atropos-Framework basiert. Jeder Forscher mit ausreichender Rechenleistung kann diese Arbeit nun reproduzieren, modifizieren oder erweitern.
Joe Li, der leitende Forscher des Projekts, brachte eine ganz persönliche Perspektive in die Entwicklung ein. Als ehemaliger Wettkampfprogrammierer verglich er die Entwicklungskurve des Modells mit seinem eigenen Werdegang auf Codeforces, der Plattform, auf der Programmierer je nach Wettbewerbsleistung eine Wertung erhalten. Der Sprung des Modells von einer Bewertung von etwa 1600–1750 auf 2100–2200 spiegelte Lis eigenen zweijährigen Verbesserungsprozess wider – nur dass die KI dies in 96 Stunden schaffte.
Die Effizienzkluft zwischen Mensch und maschinellem Lernen
Hier wird es für alle interessant, die über die Rolle der KI in der Wirtschaft und im Alltag nachdenken: Das Modell lernte zwar zeitlich gesehen schneller, benötigte dafür aber deutlich mehr Beispiele. Li löste während seiner zweijährigen Verbesserungsphase etwa 1.000 Aufgaben, während NousCoder-14B 24.000 Aufgaben benötigte, um ähnliche Fortschritte zu erzielen. Menschen lernen zumindest vorerst noch deutlich effizienter mit weniger Beispielen.
Ein Einblick in den Trainingsprozess, der die KI-gestützte Prozessautomatisierung antreibt
Der technische Ansatz hinter NousCoder-14B bietet Einblicke darin, wie moderne KI-Systeme lernen, komplexe Probleme zu lösen. Das Training basiert auf „überprüfbaren Belohnungen“ – das Modell generiert Code-Lösungen, diese Lösungen werden an Testfällen ausgeführt, und das System erhält ein einfaches Pass/Fail-Feedback. Dieses binäre Signal ist zwar konzeptionell einfach, erfordert jedoch eine ausgefeilte Infrastruktur, um in großem Maßstab umgesetzt zu werden.
Nous Research nutzte die Cloud-Computing-Plattform von Modal, um die Ausführung von Code in einer Sandbox-Umgebung parallel über 24.000 Trainingsaufgaben hinweg durchzuführen, von denen jede im Durchschnitt Hunderte von Testfällen umfasste. Das System musste sicherstellen, dass der generierte Code unter strengen Vorgaben – 15 Sekunden und 4 Gigabyte Arbeitsspeicher – korrekte Ergebnisse lieferte.
Beim Training kam die „Dynamic Sampling Policy Optimization“ (DAPO) zum Einsatz, deren zentrale Neuerung das sogenannte „dynamische Sampling“ ist – dabei werden Trainingsbeispiele verworfen, bei denen das Modell entweder alle Versuche gelöst hat oder komplett gescheitert ist, da diese kein nützliches Lernsignal liefern. Die Forscher nutzten zudem die „iterative Kontexterweiterung“: Sie begannen mit einem Kontextfenster von 32.000 Token, erweiterten dieses während des Trainings auf 40.000 Token und erhöhten es schließlich während der Auswertung auf 80.000 Token, um optimale Ergebnisse zu erzielen.
Das Problem der Datenknappheit, das den Fortschritt der KI bremsen könnte
In Lis technischem Bericht verbirgt sich eine Erkenntnis mit weitreichenden Auswirkungen auf die Zukunft der KI-Entwicklung: Im Grunde haben sie den Großteil der weltweit verfügbaren hochwertigen Wettbewerbsprogrammieraufgaben bereits aufgebraucht. Die 24.000 Aufgaben in ihrem Trainingsdatensatz stellen „einen erheblichen Teil aller leicht zugänglichen, überprüfbaren Wettbewerbsprogrammieraufgaben in einem standardisierten Datensatzformat“ dar.
Diese Datenbeschränkung spiegelt die wachsenden Bedenken in der gesamten KI-Branche wider. Während die Rechenleistung weiterhin vorhersehbar zunimmt, werden hochwertige Trainingsdaten immer knapper. Insbesondere im Bereich der Wettbewerbsprogrammierung ist diese Herausforderung besonders akut, da in diesem Bereich Aufgaben mit bekannten, korrekten Lösungen benötigt werden, die automatisch überprüft werden können – was die Generierung synthetischer Daten erheblich schwieriger macht als bei anderen KI-Anwendungen.
Li identifizierte eine mögliche Lösung: Modelle nicht nur darauf zu trainieren, Probleme zu lösen, sondern auch lösbare Probleme zu generieren, wodurch eine Form des Selbstspiels ermöglicht wird, ähnlich den Techniken, die sich bei spielenden KI-Systemen bewährt haben. „Sobald die synthetische Problemgenerierung gelöst ist, wird das Selbstspiel zu einem sehr interessanten Ansatz“, merkte er an.
Eine 65-Millionen-Dollar-Wette auf die Zukunft der Open-Source-KI
Nous Research hat sich in der KI-Branche eine einzigartige Position erarbeitet – als Unternehmen, das sich der Veröffentlichung von Open-Source-Software verschrieben hat, die mit proprietären Alternativen konkurriert. Das Unternehmen hat unter der Führung von Paradigm, einer auf Kryptowährungen spezialisierten Risikokapitalgesellschaft, 65 Millionen US-Dollar an Finanzmitteln eingeworben, was das wachsende Interesse an dezentralen Ansätzen in der KI-Entwicklung widerspiegelt.
Zu den früheren Versionen gehören Hermes 4, das Berichten zufolge ChatGPT ohne inhaltliche Einschränkungen übertraf, sowie DeepHermes-3, das als erstes „Toggle-on-Modell für logisches Denken“ beschrieben wird, mit dem Nutzer erweiterte Denkfähigkeiten nach Bedarf aktivieren können.
Das im Anime-Stil gehaltene Branding und der Community-Ansatz des Unternehmens stießen sowohl auf Begeisterung als auch auf Skepsis, wobei einige Kritiker bezweifeln, dass der Stil den Inhalt in den Hintergrund drängen könnte. Es wird weiterhin fachlich diskutiert, ob NousCoder-14B für „agentebasierte“ Programmierabläufe oder für die Lösung einzelner Probleme optimiert ist – eine Unterscheidung, die für die praktische Softwareentwicklung von großer Bedeutung ist. Diese Entwicklung verdeutlicht den allgemeinen Trend, wie KI unsere Herangehensweise an bisher unlösbare geschäftliche Herausforderungen verändert.
Wie geht es weiter mit den Entwicklungswerkzeugen für KI?
Die Forschungsergebnisse weisen auf mehrere entscheidende Entwicklungen hin, die erforderlich sind, damit sich KI-Codierungswerkzeuge weiter verbessern können. Ganz oben auf der Liste steht das mehrstufige bestärkende Lernen – derzeit erhalten Modelle lediglich ein abschließendes „Bestanden“- oder „Nicht bestanden“-Feedback, doch bei Programmierwettbewerben gibt es in der Regel Zwischensignale wie Kompilierungsfehler und Teilergebnisse von Tests, die als Anhaltspunkte für eine schrittweise Verbesserung dienen könnten.
Am ehrgeizigsten ist vielleicht, dass die Fähigkeit, Programmieraufgaben zu generieren, den Mangel an Daten beheben und gleichzeitig echte, selbstlernende Systeme ermöglichen könnte. Wie Li feststellte: „Menschen sind hervorragend darin, interessante und nützliche Aufgaben für andere Wettkampfprogrammierer zu erstellen, doch bei den Fähigkeiten von LLM zur kreativen Aufgabenerstellung besteht nach wie vor eine erhebliche Lücke.“
NousCoder-14B ist ab sofort auf Hugging Face unter einer Apache-2.0-Lizenz verfügbar, zusammen mit dem vollständigen Atropos-Trainingsstack. Für Unternehmen und Entwickler, die sich mit KI-gestützten Entwicklungstools beschäftigen, stellt dies sowohl eine leistungsstarke neue Option dar als auch einen Einblick in eine Zukunft, in der die Grenze zwischen den Programmierfähigkeiten von Mensch und Maschine immer weiter verschwimmt – und in der KI nicht nur Code schreibt, sondern sich selbst beibringt, ein besserer Programmierer zu werden, als wir es uns jemals für möglich gehalten hätten.
Verfasst von
Oliver K.G.
Oliver K.G. ist der Gründer von „AI Meets Life“, einer Publikation, die US-amerikanischen Geschäftsleuten dabei hilft, den Überblick zu behalten und KI dort einzusetzen, wo es wirklich darauf ankommt – in ihren Teams, Arbeitsabläufen und beim Geschäftsergebnis. Dabei werden die Tools, Trends und Entscheidungen beleuchtet, die die Zukunft der Arbeit prägen.
Pingback:Warum sich die Geschäftsentwicklung im Bereich KI auf Wachstum statt auf Entlassungen konzentrieren sollte – AI Meets Life
Kommentare sind deaktiviert.