Google Gemini: Wie der Suchmaschinenriese ChatGPT herausfordert
Sprachmodelle und Chatbots wie OpenAIs ChatGPT oder auch Metas Llama haben in den letzten Monaten die Schlagzeilen beherrscht. Gemini ist Googles nächste KI‑Architektur, die PaLM 2 ersetzen soll. Derzeit treibt letztere viele der KI‑Dienste des Unternehmens an, darunter insbesondere den Chatbot Bard und verschiedene KI‑Funktionen in Workspace‑Apps wie Google Docs. Gemini wird es diesen Diensten ermöglichen, gleichzeitig Texte, Bilder, Audio‑, Video‑ und andere Datentypen zu analysieren oder zu erzeugen. Damit unternimmt Google erneut einen Angriff auf den Marktführer ChatGPT.
Mit Gemini hofft Google, ChatGPTs Sprachmodell GPT‑4 in Sachen Qualität und Genauigkeit zu übertreffen, bevor es endgültig abgehängt wird. Nachdem das Unternehmen im Mai 2023 erstmals über das Modell gesprochen hatte, veröffentlichte es Gemini am 6. Dezember 2023.
Funktionsweise
Doch wie unterscheidet sich Gemini von anderen Sprachmodellen wie GPT‑4? Der Hauptunterschied liegt in der Art und Weise, wie Gemini verschiedene Datentypen verarbeitet. Während GPT‑4 nur einen einzigen Datenstrom verwenden kann, ist Gemini in der Lage, mehrere Datenströme gleichzeitig nutzen. Das bedeutet, dass Gemini nicht nur Texte oder Bilder analysieren oder erzeugen, sondern auch die Beziehungen zwischen ihnen verstehen kann. Zum Beispiel kann Gemini einen Text über ein Gemälde schreiben und dabei das Bild als Referenz verwenden. Oder es kann eine Frage beantworten, die sich auf eine kombinierte Eingabe aus Text und Video bezieht.
Gemini ist also nicht nur eine einfache Weiterentwicklung von PaLM 2. Es zeigt uns, dass die Zukunft der Generativen KI nicht nur aus Sprache oder Bildern besteht, sondern aus einer Vielzahl von Medienarten. Die KI kann nicht nur Merkmale aus einem Video extrahieren, um eine Zusammenfassung zu erstellen, sondern auch auf Folgefragen in Textform antworten.
Aber wie funktioniert eine multimodale KI wie Google Gemini nun im Detail? Analog zu bisherigen Sprachmodellen verfügt Gemini über die üblichen Komponenten wie Encoder und Decoder. Wenn das Modell allerdings eine Eingabe mit mehr als einem Datentyp erhält (wie z. B. ein Text und ein Bild), extrahiert der Encoder alle relevanten Details aus jedem Datentyp separat.
Die KI sucht dann mithilfe eines Aufmerksamkeitsmechanismus (Attention Mechanism) nach wichtigen Merkmalen oder Mustern in den extrahierten Daten. Ähnlich wie bei einem Menschen werden dadurch nebensächliche Details weggefiltert, um sich auf eine bestimmte Aufgabe konzentrieren zu können. Zum Beispiel würde die Identifizierung eines Tieres in einem Video nur die spezifischen Bereiche des Bildes mit einem bewegten Objekt betrachten. Schließlich kann die KI die Informationen, die sie aus den verschiedenen Eingabemedien erhält, zusammenführen, um eine übergreifende Ausgabe zu erzeugen.
Modellgrößen
Ein Faktor, der bei leistungsfähigen KI‑Modellen ebenfalls eine große Rolle spielt, ist die Latenz. Als GPT‑4 herauskam, lieferte es viel bessere Ausgaben als sein Vorgänger GPT‑3, allerdings auf Kosten der Geschwindigkeit. Offensichtlich bietet Google im Fall von Gemini daher drei verschiedene Größen an:
- Gemini Nano: Das kleinste Modell ist ideal für mobile Geräte und wird ab dem Pixel 8 Pro auf Android‑Geräten offline verfügbar sein.
- Gemini Pro: Das Gemini Pro‑Modell wird nach und nach in Dienste wie Gmail und Docs integriert werden.
- Gemini Ultra: Das größte und leistungsfähigste Modell ist hauptsächlich für Rechenzentren und Unternehmensanwendungen konzipiert.
Wie die einzelnen Modelle im Vergleich zur Konkurrenz abschneiden werden, wird die Zukunft entscheiden — und damit auch, ob diese sich langfristig durchsetzen können. Insbesondere Gemini Nano scheint aber ein Schritt in die richtige Richtung zu sein, da damit erstmals ein leistungsfähiges Sprachmodell direkt auf dem Gerät des Endanwenders verfügbar ist und kein Internetzugriff mehr nötig ist. Dieser Schritt dürfte besonders für Menschen, die auf Ihren Datenschutz bedacht sind, ein Pluspunkt sein.
Ist Gemini besser als ChatGPT?
Google Gemini ist eine direkte Herausforderung an ChatGPT. Dieses Sprachmodell wurde im Jahr 2020 vorgestellt und hat seitdem viele Nutzer mit seinen Fähigkeiten zur Texterzeugung beeindruckt. Erste Tests von Google zeigen, dass sein Gemini‑Modell eine bessere Performance als ChatGPT aufweist. Ob man diesen Tests hundertprozentig Glauben schenken darf, ist derzeit allerdings noch unklar.
Wenn es darum geht, multimodal zu sein — also in der Lage zu sein, mehrere Arten von Eingaben zu verstehen — ist Gemini aber derzeit führend. Es kann Video, Bilder, Text und Audio als Eingabe verarbeiten. Allerdings akzeptiert die GPT‑Weiterentwicklung GPT‑4 Vision (GPT‑4V) ebenfalls bereits Bild und Text als Eingabetypen und dank Zugang zum Bildgenerator DALL·E kann GPT‑4V auch Bilder als Ausgabe erzeugen.
Dennoch unterstützt Gemini hier im direkten Vergleich deutlich mehr Medien. Man kann also mit einiger Sicherheit erwarten, dass OpenAI sich beeilen wird, für ChatGPT native Video‑ und Audioeingaben zu ermöglichen. Es wird interessant sein zu sehen, inwieweit diese zusätzlichen Funktionen sich negativ auf die Latenz auswirken werden.
Ausblick
Anwendungsbeispiele
Durch seinen multimodalen Ansatz ist Gemini in der Lage ist, verschiedene Arten von Informationen zu integrieren und zu synthetisieren. Dies eröffnet neue Möglichkeiten für die KI‑Anwendungsentwicklung, da Gemini nicht nur bestehende Dienste verbessern, sondern auch vollkommen neue Dienste ermöglichen kann. Zum Beispiel könnte Gemini eine visuelle Suchmaschine sein, die auf natürliche Sprache reagiert. Oder es könnte die Grundlage für einen kreativen Assistenten sein, der Nutzern dabei unterstützt, Inhalte für verschiedene Medienformate zu erstellen.
Die Fähigkeit von Gemini, visuelle und textuelle Daten zu kombinieren, sollte es ihm auch ermöglichen, gleichzeitig mehr als eine Art von Ausgabedaten zu erzeugen. Stellen Sie sich eine KI vor, die nicht nur den Inhalt eines Magazins schreiben, sondern auch das Layout und die Grafiken dafür entwerfen könnte. Oder eine KI, die eine ganze Zeitung oder einen Podcast basierend auf den Themen, die Sie am meisten interessieren, zusammenfassen könnte.
Verfügbarkeit in Europa
Gemini ist in Europa zum aktuellen Zeitpunkt aufgrund regulatorischer Hürden noch nicht verfügbar. Erst kürzlich hat die EU‑Kommission ein neues Gesetzespaket verabschiedet, den AI Act. Dieser sieht vor, dass für den Einsatz von Künstlicher Intelligenz künftig strengere Regeln gelten sollen. Ob tatsächlich der AI Act die Einführung von Gemini in Europa verhindert, ist nicht hundertprozentig klar, gilt aber als wahrscheinlich. Auch Google Bard war nicht sofort in Europa verfügbar. Es gab einige Monate Verzögerung wegen rechtlicher Unsicherheiten in Bezug auf Datenschutz und Urheberrecht.
Fazit
Zusammenfassend lässt sich sagen, dass Google Gemini ein spannendes und innovatives Projekt ist, das das Potenzial hat, die Anwendungsmöglichkeiten von Generativer KI weiter auszubauen. Dabei stellt sich Google der Herausforderung, mit ChatGPT zu konkurrieren. Es bleibt abzuwarten, ob sich das multimodale Modell in der Praxis bewähren wird und vor allem wie die Nutzer auf dieses reagieren werden. Wir werden die Entwicklungen auf diesem Gebiet weiterhin aufmerksam verfolgen und Sie auf dem Laufenden halten. Ob Google Gemini am Ende tatsächlich besser als ChatGPT sein wird, bleibt allerdings abzuwarten.
Laura Berghoff
1. Februar 2024