Die rasante Einführung von DeepSeek, einer neuen KI-gesteuerten Chatbot-App aus China, hat die Technologiebranche erschüttert. Innerhalb kürzester Zeit hat die App OpenAIs ChatGPT als am häufigsten heruntergeladene kostenlose iOS-App in den USA überholt. Doch die eigentliche Überraschung kam, als sie einen Rekordabsturz im Marktwert von Nvidia auslöste – fast 600 Milliarden US-Dollar in nur einem Tag – aufgrund ihrer disruptiven Fähigkeiten und kosteneffizienten Gestaltung.
Im Zentrum dieser Entwicklung steht das fortschrittliche „Large Language Model“ (LLM) von DeepSeek, das Berichten zufolge mit den fortschrittlichsten Modellen in den USA, einschließlich OpenAIs GPT-4, vergleichbar ist. Was DeepSeek jedoch von anderen abhebt, ist die Fähigkeit, diese Spitzenleistung zu einem Bruchteil der Kosten zu liefern. Das Unternehmen behauptet, sowohl die benötigte Rechenzeit als auch den Speicherbedarf für das Training und den Einsatz seines Modells, R1, drastisch reduziert zu haben.
Laut DeepSeek benötigte das Basismodell von R1, bekannt als V3, nur 2,788 Millionen Stunden für das Training – unter Verwendung von rund 2.000 Nvidia H800 GPUs. Dies wurde mit geschätzten Kosten von weniger als 6 Millionen US-Dollar (4,8 Millionen Pfund) erreicht, ein deutlicher Unterschied zu den über 100 Millionen US-Dollar (80 Millionen Pfund), die für das Training von OpenAIs GPT-4 erforderlich waren. Diese drastische Reduzierung der Trainingskosten stellt einen bedeutenden Durchbruch für die KI-Branche dar, insbesondere angesichts der steigenden Ausgaben für das Training riesiger Modelle. Der günstigere Ansatz könnte auch den Weg für zugänglichere KI-Systeme ebnen und damit KI-gesteuerte Anwendungen weltweit demokratisieren.
Nvidia spürte jedoch die Auswirkungen des Marktes. Während DeepSeeks Modelle auf 2.000 modifizierten H800 GPUs von Nvidia basierten – die entwickelt wurden, um den Exportbestimmungen für China zu entsprechen – verdeutlicht der dramatische Kurssturz die Verwundbarkeit der großen Technologiekonzerne im schnelllebigen KI-Sektor. Diese GPUs wurden vor den strikteren Exportbeschränkungen des Biden-Administrationsgesetzes im Oktober 2023 aufgestockt, die den Export bestimmter Chips nach China effektiv unterbanden.
Die Effizienz von DeepSeeks KI-Modellen verspricht nicht nur Kosteneinsparungen, sondern geht auch auf die wachsenden Bedenken hinsichtlich der Umweltbelastung durch KI-Technologien ein. Die Rechenzentren, die für den Betrieb groß angelegter Modelle wie GPT-4 erforderlich sind, benötigen enorme Mengen an Strom und Wasser, was zu erheblichen CO2-Emissionen führt. Schätzungen zufolge verursachen die monatlichen CO2-Emissionen von ChatGPT allein den äquivalenten CO2-Ausstoß von 260 Flügen von London nach New York. Im Gegensatz dazu verspricht DeepSeeks Effizienz einen nachhaltigeren Weg nach vorne, obwohl noch nicht nachgewiesen ist, ob dies tatsächlich zu einem geringeren Energieverbrauch im großen Maßstab führen wird.
Trotz der umweltfreundlicheren Ausrichtung bleibt die größere Frage bestehen: Wird die günstigere und effizientere KI dazu führen, dass diese Modelle häufiger genutzt werden und damit der Gesamtenergieverbrauch steigt? Unabhängig davon hat der Aufstieg von DeepSeek das Thema nachhaltige KI auf die Agenda gesetzt, besonders vor dem bevorstehenden Paris AI Action Summit, bei dem die Zukunft umweltfreundlicher KI-Lösungen voraussichtlich im Mittelpunkt stehen wird.
Was viele überrascht hat, ist jedoch die Geschwindigkeit, mit der DeepSeek an Bedeutung gewonnen hat. Das Unternehmen wurde erst 2023 von Liang Wenfeng gegründet, der in China inzwischen als führender KI-Innovator gefeiert wird. DeepSeek hat sich rasch als ein wettbewerbsfähiger Akteur auf der globalen Bühne positioniert. Das bahnbrechende Modell des Unternehmens geht dabei nicht nur auf rohe Leistung ein, sondern auch auf eine einzigartige technische Herangehensweise.
Im Gegensatz zu proprietären Systemen wie OpenAIs Modellen, die oft als „Black Boxes“ gelten, hat DeepSeek einen beispiellosen Schritt unternommen, indem es die „Weights“ – die wesentlichen numerischen Parameter – seines Modells zusammen mit einem detaillierten technischen Papier veröffentlicht hat. Diese Offenheit ermöglicht es Forschern weltweit, die inneren Abläufe von DeepSeeks Technologie zu erforschen und so zur Zusammenarbeit und weiteren Innovation beizutragen. Einige wichtige Details, wie die verwendeten Datensätze und der Code für das Training der Modelle, bleiben jedoch unklar, was Forscher dazu anregt, die fehlenden Puzzleteile zusammenzusetzen.
DeepSeeks Modell nutzt auch die „Mixture-of-Experts“-Technik – eine Strategie, die bereits von anderen LLMs wie Mistral AIs Mixtral 8x7B-Modell verwendet wurde. Bei diesem Ansatz wird ein Modell aus mehreren kleineren Submodellen zusammengesetzt, die auf unterschiedliche Domänen spezialisiert sind. Wenn eine Aufgabe gestellt wird, weist das System diese dem geeignetsten „Experten“ zu, wodurch sowohl die Geschwindigkeit als auch die Genauigkeit optimiert wird. Diese Methode hat sich als äußerst effizient erwiesen, um die Modellleistung zu steigern und gleichzeitig die Rechenkosten niedrig zu halten.
Zusätzlich hat DeepSeek auch Einblicke in seine vorherigen Versuche mit anderen technischen Ansätzen gegeben, wie etwa dem Monte-Carlo-Tree-Search, einer Methode, die schon lange als potenzieller Ansatz zur Verbesserung des Denkprozesses von LLMs gehandelt wird. Auch wenn diese Versuche nicht vollständig erfolgreich waren, bieten sie wertvolle Daten für Forscher, die darauf abzielen, die bereits beeindruckenden Problemlösungsfähigkeiten des Modells weiter zu verfeinern. Das Wissen, das DeepSeek geteilt hat, könnte den Weg für zukünftige Durchbrüche ebnen und die Entwicklung der nächsten Generation von KI-Modellen beeinflussen.
Zusammenfassend lässt sich sagen, dass der Aufstieg von DeepSeek ein Beweis für das rasante Tempo der Innovation im Bereich der Künstlichen Intelligenz ist. Mit seinem kosteneffizienten Modell, umweltbewussten Ansatz und einer offenen Forschungsstrategie könnte DeepSeek einen bleibenden Einfluss auf die KI-Branche ausüben und neue Maßstäbe für sowohl Leistung als auch Nachhaltigkeit in den kommenden Jahren setzen.