ChatGPT: Ein Digitaler Agent erobert die Welt

Dezember 2022, Markus Schacher

Die Medien sind voll davon: Am 30. November 2022 wurde von OpenAI der Chat Bot „ChatGPT“ als Prototyp veröffentlicht und kostenlos allen Interessierten zur Verfügung gestellt. Seine sprachlichen Fähigkeiten beeindrucken derart, dass er innerhalb von bloss 5 Tagen eine Million Benutzer erreichte. Als Chatbot handelt es sich dabei um System, mit dem sich ein menschlicher Benutzer auf ganz natürliche Art und Weise auf textueller Ebene austauschen kann. Dabei erweist sich ChatGPT als virtuoser Fragen-Beantworter, als Diskussionspartner für jegliche Themen, aber auch als Kreativpartner, welcher beliebige Kurzgeschichten, Gedichte oder Lieder in jedem erdenklichen Stil innerhalb von Sekunden „erfinden“ kann. Ja, er kann sogar kleine Programme in verschiedensten Programmiersprachen schreiben und deren Funktionsweise einfach und verständlich erklären.

Digitale Agenten

Vor rund 3 Jahren habe ich in einem Artikel eine Referenzarchitektur eines „digitalen Agenten“ vorgestellt, mit dem sich KI-Systeme systematisch beurteilen und vergleichen lassen (siehe Schacher_OS_02_20). Unter einem digitalen Agenten verstehe ich ein Software-System, welches Aufgaben von (und für) Menschen unterstützen oder sogar vollständig übernehmen kann. Dazu habe ich die folgenden 9 Fähigkeiten definiert, die einer Maximalversion eines digitalen Agenten zugeschrieben werden könnten und sich daher als „Benchmark“ für solche Systeme eignen:

FähigkeitBeschreibung
Perceive (Wahrnehmen)Die Fähigkeit, aus Daten (z.B. physikalischen Messgrössen) und Ereignissen (Beobachtungen) im Umfeld des digitalen Agenten Informationen (semantische Bedeutungen) zu erzeugen.
Imagine (Vorstellen)Die Fähigkeit, aus „Perceive“ stammenden, potentiell unvollständigen Informationen durch Inferenz sowie bereits vorhandenem Vorwissens mehrere hypothetische Schlüsse zu generieren.
Decide (Entscheiden)Die Fähigkeit, die verschiedenen von „Imagine“ gezogenen Schlüsse zu bewerten und daraus die für die aktuelle Situation „geeignetste“ Option auszuwählen.
Act (Agieren)Die Fähigkeit, die durch „Imagine“ erzeugten und „Decide“ ausgewählten Schlüsse in Form von Reaktionen zu verwenden, um das Umfeld des digitalen Agenten zu beeinflussen.
Generalize (Generalisieren)Die Fähigkeit, aus Korrelationen zwischen spezifischen gemachten Beobachtungen allgemein gültige Zusammenhänge zu erkennen, um damit neue Beobachtungen ökonomisch einschätzen zu können.
Enclose (Begrenzen)Die Fähigkeit, insbesondere die Fähigkeiten „Perceive“, „Imagine“, „Decide“ und „Generalize“ zu überwachen, um zu verhindern, dass der digitale Agent aufgrund fehlerhafter Ausführung unerwünschte oder gar fatalen Konsequenzen verursachen kann. Damit wird die Verantwortung an den Benutzer zurück gegeben.
Motivate (Antreiben)Die Fähigkeit, aufgrund von Veränderungen im Umfeld des digitalen Agenten (die oft vom Agenten selber verursacht worden sind) (Teil-)ziele dynamisch zu generieren und zu aktualisieren.
Safeguard (Schützen)Die Fähigkeit, durch geeignete Mittel den digitalen Agenten zu schützen und so sicherzustellen, dass seine Fähigkeiten wie vorgesehen trotz mut- oder böswilliger Angriffe genutzt werden können.
eXplain (Erklären)Die Fähigkeit, eine automatisch abgeleitete Information oder eine getroffene Entscheidung erklärbar und dadurch für Menschen verständlich und nachvollziehbar zu machen.

Das folgende Bild illustriert die Zusammenhänge zwischen diesen Fähigkeiten (die Fähigkeit eXplain ist nicht explizit gezeigt, da sie orthogonal zu mehreren anderen Fähigkeiten steht):

3. ChatGPT

ChatGPT ist riesiges Sprachmodell namens GPT 3.5 (Generative Pre-trained Transformer), welches auf einem mehrstufigen neuronalen Netz des Typs „Transformer“ basiert, welcher spezielle Stärken in der Verarbeitung natürlicher Sprache aufweist. Dieses Sprachmodell wurde mittels maschinellem Lernen aus einer Vielzahl von Quellen wie Büchern, Artikeln, Websites und anderen digitalen Ressourcen aufgebaut. Für ChatGPT wurde zu GPT 3.5 ein sehr einfaches und intuitiv zu bedienendes Web-Interface hinzugefügt, welches dessen Nutzung über einen Chat-ähnlichen Dialog ermöglicht.

Im Folgenden möchte ich nun ChatGPT in Bezug auf die ober eingeführten Fähigkeiten der Referenzarchitektur für digitale Agenten beurteilen.

FähigkeitAusprägung in ChatGPT
Perceive (Wahrnehmen)Die Wahrnehmungsfähigkeit von ChatGPT beschränkt sich auf die Erfassung von durch den Benutzer eingegeben Texten sowie deren statistische Analyse von Worten und Phrasen. Allerdings ist diese Wahrnehmung „diskursfähig“, d.h. frühere Eingaben im Rahmen eines interaktiven Dialogs werden jeweils zusammen mit aktuellen Eingaben zu einem komplexen aktuellen „Diskurskontext“ kombiniert. Da das ChatGPT zugrundeliegende Sprachmodell in Englisch trainiert wurde, werden Texte in anderen Sprachen erst ins Englische übersetzt, bevor sie weiter verarbeitet werden.
Imagine (Vorstellen)Durch seine Transformer-Architektur verarbeitet ChatGPT die Wortfolgen des eigegebenen Texts sequentieller Art und Weise und schlägt basierend auf dem in der Trainingsphase erlernten Sprachmodells, vorhandenen internen Datenbanken sowie aus dem Kontext des aktuellen Dialogs eine grosse Zahl möglicher angemessener Folgewörter, Textfragmente und Sätze vor.
Decide (Entscheiden)Die einzelnen generierten Textfortsetzungen werden nach verschiedenen statistischen und grammatikalischen Kriterien gewichtet. Zudem werden wissensbedingte Einschränkungen berücksichtigt, um unangemessene oder falsche Antworten möglichst auszuschliessen (siehe auch „Enclose“ unten). Die „besten“ Kandidaten werden dann dem Benutzer präsentiert, welcher sie (wenn gewünscht) der Reihe nach lesen, vergleichen und ggf. auch bewerten kann („Generate-and-Test“ Pattern).
Act (Agieren)Aktionen, mit denen ChatGPT seine Umwelt beeinflussen kann, beschränken sich auf die Ausgabe von Texten. Wird ein Diskurs in einer anderen Sprache als English geführt, so wird der auszugebende Text jeweils ad-hoc in die jeweilige Zielsprache übersetzt. Die ausgegebenen Texte sind meist von hoher argumentativer Qualität, sodass sich auch ein substantieller Einfluss auf die mentale Einstellung des Benutzers von ChatGPT ausmachen lässt: Von ChatGPT gemachte Aussagen sind manchmal komplett erfunden und entsprechen keiner Realität – tönen sie meist sehr überzeugend.
Generalize (Generalisieren)Der Lernprozess von ChatGPT beschränkt sich fast ausschliesslich auf eine vorgängige aufwändige Trainingsphase, welche „offline“ das verwendete Sprachmodell erzeugte. In der gegenwärtigen Version von ChatGPT wurde dieses Training bereits 2021 abgeschlossen – neueres Wissen ist also nicht enthalten. Während eines Dialogs mit einem Benutzer lernt ChatGPT nichts mehr hinzu (ausgenommen des ober erwähnten flüchtigen Dialogkontexts“). Allerdings fliessen die von Benutzern abgegebenen Bewertungen der Antworten vermutlich in die nächste Version des Sprachmodells (GPT 4) ein, welches im ersten Quartal 2023 erwartet wird.
Enclose (Begrenzen)Um die Grenzen der Fähigkeiten von ChatGPT abzusichern, wurden verschiedene sogenannte „Filter“ eingebaut. Diese kennen die Grenzen seines Wissens (er weiss beispielsweise nichts über Ereignisse, die nach 2021 stattgefunden haben oder über die meisten konkreten Organisationen oder Personen). Fragen, welche an diese Grenzen stossen, werden jeweils freundlich, aber bestimmt sowie mit Begründung zurückgewiesen.
Motivate (Antreiben)ChatGPT hat keine eigenen, persönlichen Ziele und weist keine dynamische Zielgenerierung auf – es geht lediglich darum, die gestellten Fragen zu beantworten oder gemachten Bemerkungen zu kommentieren. Nach eigenen Aussagen hat ChatGPT einzig das (von OpenAI) fest vorgegebene Ziel „Menschen dabei zu helfen, Informationen zu finden und Fragen zu beantworten“.
Safeguard (Schützen)Um seinen eigenen Ruf zu schützen, weist ChatGPT weitere „Filter“ auf, damit sich beispielsweise keine Dialoge mit sexistischem, rassistischem Inhalt oder übermässiger Gewalt provozieren lassen. Allerdings lassen sich diese Filter teilweise mit geeigneten Fragestellungen austricksen, was dazu führt, dass diese Filter von OpenAI permanent verbessert werden.
eXplain (Erklären)Die Informationen, die ChatGPT abgibt beinhalten keine spezifischen Quellenangaben – was allgemein als grosses Problem betrachtet wird. Durch die Dialogfähigkeit besteht allerdings die Möglichkeit, auf Details einer Antwort spezifische Nachfragen zu stellen oder eine Begründing zu verlangen, was die Glaubwürdigkeit der Informationen ggf. etwas erhöhen kann. Trotzdem ist natürlich grosse Vorsicht geboten und die Antworten von ChatGPT müssen immer kritisch betrachtet und nicht immer für bare Münze genommen werden.

Zum Abschluss dieses Artikels habe ich ChatGPT noch eine einfache Frage gestellt, deren Antwort sogar eine gewisse Fähigkeit zur Selbsteinschätzung erfordert:

P.S.: Das Bild am Anfang dieses Artikels hat Dall-E 2, ein Bruder von ChatGPT erzeugt, der zwar auf der selben Technologie wie ChatGPT basiert, aber eingegebene textuelle Beschreibungen in Form von Bildern visualisieren kann.