
Large Language Models (LLM) bzw. große Sprachmodelle liefern in Chatbots auf alltägliche Anfragen häufig gute bis sehr gute Ergebnisse, die oft für eine erste Orientierung mehr als ausreichend sind. Forschende am Fraunhofer IWU geben allerdings zu bedenken, dass Trainingsdatensätze unvollständig oder veraltet sowie einige Informationen unscharf oder gar falsch sein können. Sie raten daher zu einer Überprüfung der erhaltenen Auskünfte. So sollte man sich etwa bei Rechtsfragen nicht ‚blind‘ auf einen Chatbot verlassen. Und was, wenn von den Angaben die Sicherheit von Menschen abhängen kann? Doch wieder selbst eingehend relevante Dokumente studieren?
Retrieval Augmented Generation
Mit Retrieval Augmented Generation (RAG) wollen Forschende am Fraunhofer IWU hier Abhilfe schaffen und zusätzliche Leitplanken für Sprachmodelle schaffen. Das LLM durchleuchtet dann in erster Linie maßgebliche Texte bzw. Textstellen. Das Sprachmodell wird dabei nicht neu trainiert, sondern selektiv erweitert.
Betrieb auch auf Standard-PCs
Als Sprachmodell verwenden die Forschenden LLaMA (Large Language Model Meta AI). Dieses sei groß bzw. leistungsfähig genug und überfordere dennoch nicht Rechenleistung und Grafikkarte eines hochwertigen Standard-PCs. Die Anwendung kann somit auf einem lokalen Rechner betrieben werden und Unternehmen behalten die Hoheit über ihre Daten. Bei weniger sensiblen Daten ist auch der Betrieb in der Cloud möglich.
Wie funktioniert RAG?
Zunächst müssen die ins LLM zu importierenden Daten auf den reinen Text reduziert werden (Cleaning). Sobald dieser in kleinere Abschnitte (Chunks; auffindbare Bausteine) segmentiert ist, folgt der Aufbau eines Suchsystems (Retrieval System), das die Chunks effizient durchsuchen kann. Die Chunks werden nach relevanten Passagen gegliedert und in einer Vektordatenbank abgelegt, also in mathematische Vektoren umgewandelt, die ihre Bedeutung repräsentieren. Auch die Prompts werden in Vektoren umgewandelt. So wird das Modell in die Lage versetzt, nach den in der Anfrage enthaltenen Wörtern zu suchen und gleichzeitig den Prompt tatsächlich zu ‚verstehen‘ (semantische Suche). Das Modell kann jetzt die zu einer Nutzeranfrage passenden Chunks kürzen, neu strukturieren, die wichtigsten Informationen herausfiltern und zu einem verständlichen Zusammenhang kombinieren. Liegt eine konkrete Suchanfrage vor, stehen ausgewählte Chunks zur Verfügung, auf deren Grundlage das Modell faktenbasierte Antworten geben kann. Das Modell nutzt den zusätzlichen Kontext der Chunks und muss nicht neu trainiert werden.






































