Kategorien
Forschung

Forschung: Wird die Leistung von ChatGPT schlechter?

Verschlechtert sich die Leistung von ChatGPT? Ein kontrovers diskutierter Forschungsartikel untersucht diese Frage anhand der Version GPT-3.5 und GPT-4 von März und Juni 2023. Diese Large Language Models (LLMs) nutzen Menschen derzeit am häufigsten. Doch eine Analyse zeigt, dass die Abnahme der Qualität nur scheinbar ist und möglicherweise einen Fehler enthält.

Lieber Gast!

In der Hardcore KI-Gemeinde brodelt es: Denn der Forschungsartikel “How Is ChatGPT’s Behavior Changing over Time?” von Lingjiao Chen, Matei Zaharia und James Zou (Stanford University, University of California Berkley) zeigt, dass das aktuelle Modell GPT-4 vom Juni 2023 gegenüber dem Vorgänger GPT-3.5 als auch seiner eigenen Version von März 2023 bei bestimmten Aufgaben weniger leistungsfähig ist.

Und dies passe auch zum Gefühl vieler Nutzer, dass die Qualität des Chatbots von OpenAI & Microsoft in den letzten Monaten abnahm. In einer Antwort (siehe unten) analysieren Forscher der Uni Princeton, dass dies nicht der Fall ist, sondern vermutlich andere Gründe hat. Und auf Twitter hat Simon Boehm die Ergebnisse zum Coding unter die Lupe genommen und auf Twitter gepostet. Zudem habe ich weitere Hinweise zur Studie am Ende als Nachträge eingefügt. Doch zuerst zur Studie:

Die Studie von Chen, Zaharia und Zou (2023)

Die Forscher von Stanford & UC Berkley verglichen vier Versionen von ChatGPT für ihre Studie:

  • GPT-3.5 von März 2023
  • GPT-4 von März 2023
  • GPT-3.5 von Juni 2023
  • GPT-4 von Juni 2023

Jede dieser Versionen musste sich folgenden vier unterschiedlichen Aufgaben stellen:

  1. Mathematik-Probleme lösen
  2. Sensible bzw. gefährliche Fragen beantworten
  3. Programmiercode erzeugen
  4. Visuelles Schlussfolgern

Die Ergebnisse fassen die Autoren wie folgt zusammen:

»We find that the performance and behavior of both GPT-3.5 and GPT-4 can vary greatly over time. For example, GPT-4 (March 2023) was very good at identifying prime numbers (accuracy 97.6%) but GPT-4 (June 2023) was very poor on these same questions (accuracy 2.4%).

Interestingly GPT-3.5 (June 2023) was much better than GPT-3.5 (March 2023) in this task. GPT-4 was less willing to answer sensitive questions in June than in March, and both GPT-4 and GPT-3.5 had more formatting mistakes in code generation in June than in March.«

Die Antwort und Analyse von Narayanan und Kapoor (2023)

Doch wie Zain Kahn und sein Team in ihrem Newsletter Superhuman vom 20.07.2023 hinweisen, gibt es Gegenstimmen und andere Erfahrungen, insbesondere auf Twitter, wie die von Arvind Narayanan (Princeton CS prof. Director):

»We dug into a paper that’s been misinterpreted as saying GPT-4 has gotten worse. The paper shows behavior change, not capability decrease. And there’s a problem with the evaluation—on 1 task, we think the authors mistook mimicry for reasoning.«

Seine vollständige Antwort zusammen mit Sayash Kapoor lesen wir auf deren Blogseite “AI Snake Oil” unter dem Titel: “Is GPT-4 getting worse over time?” und dem Untertitel: “A new paper going viral has been widely misinterpreted”.

Und weiter heißt es in dieser Analyse von Narayanan & Kapoor (2023):

A new paper making the rounds is being interpreted as saying that GPT-4 has gotten worse since its release. Unfortunately, this is a vast oversimplification of what the paper found. And while the findings are interesting, some of the methods are questionable, so it’s worth digging into the details.”

Ihr Schlussfolgerung laut:

“In short, the new paper doesn’t show that GPT-4 capabilities have degraded. But it is a valuable reminder that the kind of fine tuning that LLMs regularly undergo can have unintended effects, including drastic behavior changes on some tasks. Finally, the pitfalls we uncovered are a reminder of how hard it is to quantitatively evaluate language models.”

+++ Update +++

Die Re-Analyse von Simon Böhm (2023)

Zur Überprüfung der Studie hat Simon Böhm (Replikationen sind eminent wichtig!) vom Astera Institute in Berkley, Kalifornien, die Ergebnisse zur Coding-Leistung der Versionen von GTP-4 re-analysiert. Er kommt zu folgendem Ergebnis, das er auf Twitter als Antwort auf den Post von Co-Autor Matei Zaharia teilt.

+++

Fazit

Bei der Nutzung von ChatGPT und anderen großen Sprachmodellen wie das neue “Bard” von Google, “Claude 2″ von Antrophic” oder den Open Source Modellen Bloom, OpenLLaMa, OpenAlpaca, Dolly 2 oder RedPajama (ich recherchiere hierzu und teste sowohl die kommerziellen und offenen Modelle; Vernetzen oder kontaktieren für Publikationsinfo) sollte man vorher wichtige Fragen klären.

Vor allem natürlich, wenn es um den offiziellen Einsatz in Organisationen von Chatbots oder generell Generativer Künstlicher Intelligenz geht (siehe hierzu das Beispiel AT&T in meinem letzten Newsblog-Beitrag).

Wie der Artikel und die Diskussion zeigen, dann nicht nur in rechtlicher und organisatorischer Hinsicht, sondern auch darum, worum es im Kern geht: Die Leistungsfähigkeit der Ergebnisse, die man durch passende Prompts (Fragen oder Aufforderungen an die KI-Software) bekommt – denn manche Chatbots erfinden Sachverhalte oder Quellen und verändern sich durch das Fine Tuning der Modelle.

Und gerade in Bezug auf die Qualität unterscheiden sich die Large Language Models, wie ich kürzlich in einem schönen Vergleich bei einem anderen Forscher sah.

Viel Freude beim Lesen und alles Gute!

Herzliche Grüße, Stefan Klemens

PS: Lust auf einen Austausch zu People Analytics, Digital Assessment oder Künstliche Intelligenz im HRM? Dann vernetzen, Nachricht schreiben oder Termin für ein Online-Meeting vereinbaren.

Nachträge

(1) 21.07.2023: Nach dem Hinweis von Paul McLeod auf LinkedIn habe ich mir den Post von Simon Boehm vom Astera Institute angeschaut und in meinem Newsblog-Artikel eingefügt.

(2) 21.07.2023: Hinweis: Der Co-Autor der Studie Matei Zaharia ist CTO von Databricks, die mit Dolly 2.0 einen Open Source Chatbot basierend auf Pythia von EleutherAI veröffentlicht haben. Vielleicht gibt es hier auch einen kleinen oder großen Wettkampf zwischen Vertretern der Open Source Large Language Models und kommerziellen Produkten wie OpenAI & Microsoft – ähnlich wie früher zwischen Linux und Windows (doch das “Kriegsbeil” ist ja laut Windows-Führungskräften begraben). Aber soweit bin ich (noch) nicht vernetzt mit dem Silicon Valley, um hier fundierte Antworten zu liefern. Da muss ich mal die Reporterin Yiwen Lu der New York Times fragen (siehe meinen Newsblog-Artikel von gestern: https://www.schorberg.de/the-new-york-times-ki-chatbots-an-us-arbeitplaetzen/ Oder wer weiß mehr?

(3) 22.07.2023: Wie ich heute morgen lese, gibt es von Bret Kinsella von https://voicebot.ai auf substack.com eine weitere Antwort auf die die Forschungsergebnisse von Chen, Zaharia & Zou (2023), wobei er u.a. auch die von mir bereits in meinem Newsblog-Artikel genannte Analyse von Narayanan und Kapoor (2023) aus ihrer AI Snake Oil Blogseite zitiert: https://synthedia.substack.com/p/new-research-says-gpt-4-is-getting

Quellen

Lingjiao Chen, Matei Zaharia und James Zou (2023). How Is ChatGPT’s Behavior Changing over Time? arXiv:2307.09009v1 [cs.CL] 18 Jul 2023.
https://arxiv.org/pdf/2307.09009.pdf

Arvind Narayanan & Sayash Kapoor (2023). Is GPT-4 getting worse over time? A new paper going viral has been widely misinterpreted. AI Snake Oil, 19.07.2023
https://www.aisnakeoil.com/p/is-gpt-4-getting-worse-over-time

Von Stefan Klemens

Stefan Klemens arbeitet als People & Digital HR Analyst und gründete Schorberg Analytics 2022. Der Diplom-Psychologe und ausgebildete Bankkaufmann ist seit 2006 im Human Resource Management mit dem Schwerpunkt Online-Assessment, Online-Befragung sowie Arbeit, Gesundheit und Persönlichkeit tätig. Zuvor war er Mitarbeiter an der Bergischen Universität Wuppertal im Fachbereich Arbeits- und Organisationspsychologie und Angestellter bei der Stadtsparkasse Düsseldorf. Seit 2020 fokussiert er sich auf People Analytics, Data Science und Künstliche Intelligenz. Weiter ist er Gründer und Administrator der LinkedIn-Gruppe "Wirtschaftspsychologie Region Düsseldorf" (bis 2022 auf XING). Eines seiner Hauptanliegen ist die Verbindung von Zahlen und Statistik mit Intuition und Heuristik für bestmögliche Entscheidungen im Human Resource Management.