Im Zeitalter der technologischen Revolution bringt Google eine bahnbrechende Neuerung auf den Markt: Google Gemini. Diese innovative KI-Technologie führt eine native Verständnisfähigkeit für Video, Audio und Fotos in Googles Bard AI-Chatbot ein. Als neues Modell namens Gemini gestartet, bietet es eine erweiterte Dimension der künstlichen Intelligenz.

Benutzer des Google Pixel 8-Telefons gehören zu den ersten, die Zugang zu diesen neuen KI-Fähigkeiten erhalten. Diese erste Version der Technologie wurde am Mittwoch in Dutzenden von Ländern durch das Gemini-Update für Google Bard eingeführt, allerdings zunächst nur in Englisch. Gemini bietet textbasierte Chat-Fähigkeiten, die laut Google die KI in komplexen Aufgaben wie dem Zusammenfassen von Dokumenten, dem logischen Denken und dem Schreiben von Programmiercode verbessern.

Ein wesentlicher Fortschritt von Gemini ist seine Fähigkeit, Multimedia zu verstehen – beispielsweise Handgesten in einem Video zu erkennen oder das Ergebnis eines Kinderrätsels zu deuten. Diese Funktionen werden laut Google “bald” verfügbar sein.

Gemini markiert eine dramatische Abkehr von bisherigen KI-Modellen. Textbasierter Chat ist wichtig, doch Menschen verarbeiten weitaus komplexere Informationen in unserer dreidimensionalen, sich ständig verändernden Welt. Unsere Kommunikationsfähigkeiten umfassen nicht nur geschriebene Worte, sondern auch Sprache und Bildsprache. Gemini ist ein Versuch, unserer eigenen umfassenderen Weltwahrnehmung näher zu kommen.

Google hat Gemini in drei Versionen angekündigt, die für unterschiedliche Rechenleistungen zugeschnitten sind:

  1. Gemini Nano: Läuft auf Mobiltelefonen und wird neue Funktionen auf Googles Pixel 8-Telefonen unterstützen, wie die Zusammenfassung von Gesprächen in der Recorder-App oder das Vorschlagen von Nachrichtenantworten in WhatsApp, getippt mit Googles Gboard.
  2. Gemini Pro: Für schnelle Antworten optimiert, läuft in den Datenzentren von Google und wird eine neue Version von Bard ab Mittwoch antreiben.
  3. Gemini Ultra: Befindet sich derzeit in einer Testgruppe und wird Anfang 2024 in einem neuen Bard Advanced Chatbot verfügbar sein.

Diese neue Version unterstreicht das rasante Entwicklungstempo im Bereich der generativen KI, wo Chatbots eigene Antworten auf unsere in einfacher Sprache geschriebenen Aufforderungen erzeugen.

Eli Collins, ein Produkt-Vizepräsident in Googles DeepMind-Abteilung, betonte den Wunsch, eine neue Generation von KI-Modellen zu entwickeln, die von der Art und Weise inspiriert sind, wie Menschen die Welt verstehen und mit ihr interagieren. “Gemini bringt uns einen Schritt näher an diese Vision”, sagte Collins.

Multimedia wird wahrscheinlich eine große Veränderung im Vergleich zu Text darstellen, sobald es verfügbar ist. Doch eine unveränderte Grundproblematik der KI-Modelle bleibt bestehen: Sie werden durch das Erkennen von Mustern in riesigen Mengen realer Daten trainiert. Sie können zunehmend komplexe Aufforderungen in immer ausgefeiltere Antworten umwandeln, aber man kann ihnen nicht immer vertrauen, dass die Antwort korrekt statt nur plausibel ist.

Gemini ist die nächste Generation von Googles großem Sprachmodell, eine Fortsetzung der bisherigen Grundlage von Bard, den Modellen PaLM und PaLM 2. Durch das gleichzeitige Training von Gemini in Text, Programmiercode, Bildern, Audio und Video kann es Multimedia-Eingaben effizienter verarbeiten als separate, aber miteinander verbundene KI-Modelle für jede Eingabeart.

Beispiele für die Fähigkeiten von Gemini sind vielfältig. In einem Forschungspapier von Google (PDF) wurden diverse Fähigkeiten demonstriert, wie das Erkennen des nächsten Shapes in einer Serie oder das korrekte Herstellen einer Verbindung zwischen Fotos und historischen Ereignissen.

Die vollständige Integration und das Testen von Gemini Ultra stehen noch aus, und die endgültige Veröffentlichung ist für das nächste Jahr geplant. “Red Teaming”, bei dem Produktentwickler Personen einbeziehen, um Sicherheitslücken und andere Probleme zu finden, ist für Gemini Ultra im Gange.

Google CEO Sundar Pichai betonte in einem Blogbeitrag, dass man sich dieser Arbeit sowohl kühn als auch verantwortungsbewusst nähert. Das bedeutet eine Kombination aus ehrgeiziger Forschung mit großen potenziellen Auswirkungen, aber auch das Hinzufügen von Sicherheitsmaßnahmen und die Zusammenarbeit mit Regierungen und anderen, “um Risiken anzugehen, während KI immer fähiger wird”.

Diese Entwicklungen in der KI-Welt zeigen, dass wir uns auf dem Weg zu einem tieferen und umfassenderen Verständnis von künstlicher Intelligenz befinden, das nicht nur Text, sondern auch Bilder, Videos und Audiodaten umfasst. Mit Google Gemini wird die Art und Weise, wie wir mit KI interagieren, weiter revolutioniert und erweitert.

Ich helfe Ihnen gerne KI-Tools in ihre Arbeitsprozesse in Ihrem Marketing zu integrieren. Über den folgenden Link gelangen Sie zu meinen Kontaktdaten.