
Dr. Vera Schmitt (Forschungsgruppenleiterin), Dr. Nils Feldhus (Postdoktorand) und Dr. Oliver Eberle (Postdoktorand) von der TU Berlin geben ihre Einschätzung zum jüngsten Erfolg des Large Language Models (LLM) DeepSeek aus China und erläutern im Interview den Unterschied zwischen Open-Source-Anwendungen wie DeepSeek und anderen LLMs sowie die Rolle Europas bei der Entwicklung von Künstlicher Intelligenz (KI).
1. Wie unterscheiden sich die Konzepte von DeepSeek und ChatGPT?
Schmitt und Feldhus: DeepSeek steht für Open-Source-Transparenz und Effizienz, während ChatGPT auf massive Rechenleistung und Skalierung setzt. Ersteres ermöglicht Anpassung und niedrigere Kosten, letzteres bietet optimierte Performance, bleibt aber proprietär und ressourcenintensiv.
Man muss allerdings sehen, dass DeepSeek nicht 100 Prozent Open-Source ist, denn zum Beispiel sind nicht alle Trainingsdaten bekannt, die in das Modell hineingeflossen sind. Die Verfügbarkeit der Modellparameter hingegen und die deutlich offenere Kommunikation seitens DeepSeek erlaubt es Initiativen der Open-Source-Community wie zum Beispiel „Open-R1“ die Reproduktion des Modells in Angriff zu nehmen und dabei auf viel weniger Ressourcen zurückgreifen zu müssen im Vergleich zur riesigen und teuren Infrastruktur von OpenAI, Microsoft und anderen.
Eberle: DeepSeek ist integriert in die „Hugginface Community“, eine Plattform, die bereits Hunderte von Open-Source-Modellen und Quellcode der Modelle verfügbar macht und eine wichtige Rolle in der Verfügbarkeit, Zugänglichkeit und Transparenz von LLMs sowohl in der Forschung als auch der Industrie spielt. DeepSeek verwendete in der Vergangenheit bereits andere Open-Source-Modelle (zum Beispiel das Llama-Modell von Meta) als Grundlage (zum Beispiel bei ‚DeepSeek-R1-Distill-Llama-70b‘). Dies spart Rechenaufwand, da die Destillation von Modellen deutlich weniger rechenintensiv ist als das Trainieren eines neuen Modells von Grund auf.
DeepSeek veröffentlicht detaillierte Beschreibungen und technische Reporte seiner Modelle und beschreibt hierin auch Negativ-Resultate. Dies ist ein hilfreicher Beitrag für die Open-Source-Community, weil so die Verbesserung von künftigen offenen LLM-Systemen vorangebracht wird. ChatGPT ist im Vergleich proprietär und nur das Interface ist zugänglich, die genaue Spezifikation des Modells und die trainierten Parameter sind nicht im Detail bekannt oder offen zugänglich. Der Code zum Trainieren sowie spezifische Datensätze werden meines Wissens nach weder von DeepSeek noch ChatGPT veröffentlicht.
Wie unterstützt der Open-Source-Ansatz bei Large Language Modellen konkret Ihre Forschungen? Wird Deepseek Ihre Forschung noch weiter voranbringen?
Schmitt und Feldhus: Ein Open-Source-Ansatz bei LLMs ermöglicht uns, Modelle gezielt für unsere Forschung anzupassen. Durch offenen Zugang können wir Transparenz gewährleisten und spezifische Architekturanpassungen vornehmen. Zudem können wir so Modelle evaluieren, sie weiterentwickeln und in Mensch-KI-Prozesse effektiver integrieren. DeepSeek könnte unsere Forschung weiter voranbringen, da es effizientere Modellarchitekturen und neue Trainingsansätze bietet und diese auf unseren Rechnern reproduzierbar macht. Besonders spannend sind potenzielle Verbesserungen bei der Ressourceneffizienz, aber auch in der mehrsprachigen Verarbeitung und der Adaptierbarkeit für spezifische Domänen, die unsere bestehenden Methoden ergänzen und optimieren könnten.
Eberle: DeepSeek reiht sich ein in andere Open-Source-Modell-Familien (Llama, Mistral, Qwen und so weiter) und ermöglicht es uns, Aussagen über eine breitere Menge an LLMs zu machen. Die Struktur dieser Modelle ist weitestgehend vergleichbar und unterscheidet sich vor allem durch den Trainingsansatz und die verwendeten Datensätze. DeepSeek ermöglicht uns nun Zugang zu einem Modell mit state-of-the-art Fähigkeiten in logischem Denken (reasoning capabilities), was zu neuen Einblicken in das Lösen komplexer Aufgaben durch LLMs führen könnte.
Arbeiten Sie bereits mit anderen Open Source Large Language Modellen (LLMs)?
Schmitt und Feldhus: Wir arbeiten viel mit unterschiedlichen LLMs wie zum Beispiel LLaMa, Mistral, Qwen, Bloom, Vicuna und haben auch angefangen, mit DeepSeek zu experimentieren. Diese Open-Source-Modelle setzen wir gezielt in verschiedenen Anwendungsbereichen ein. Ein besonderer Fokus liegt auf der Desinformationserkennung, wo wir LLMs nutzen, um Narrative in digitalen Medien zu analysieren, Falschinformationen aufzudecken und Erklärungen für erkannte Fehlinformationen bereitzustellen. Wir setzen LLMs auch für die Anonymisierung und Verarbeitung medizinischer Daten in gemeinsamen Projekten mit der Charité ein.






































