AI21 Labs: Ein neues Modell künstlicher Intelligenz, das mehr Kontext als die meisten anderen verarbeiten kann

5 April 2024

By aurora

Die Industrie für künstliche Intelligenz geht zunehmend zu generativen Modellen mit breiteren Kontexten über. Modelle mit breiten Kontextfenstern sind jedoch in der Regel sehr rechenintensiv. Or Dagan, Produktmanager bei AI21 Labs, einem Startup-Unternehmen für künstliche Intelligenz, ist der Meinung, dass dies nicht der Fall sein muss, und sein Unternehmen bringt ein generatives Modell heraus, um dies zu beweisen.

Kontexte oder Kontextfenster beziehen sich auf die Eingabedaten (z.B. Text), die ein Modell berücksichtigt, bevor es die Ausgabe (mehr Text) erzeugt. Modelle mit kleinen Kontextfenstern neigen dazu, den Inhalt selbst sehr aktueller Unterhaltungen zu vergessen, während Modelle mit größeren Kontexten dieses Problem vermeiden und darüber hinaus den Datenfluss, den sie verarbeiten, besser verstehen.

Das neue Textgenerierungs- und Analysemodell von AI21 Labs, genannt Jamba, kann viele der gleichen Aufgaben wie Modelle wie ChatGPT von OpenAI und Gemini von Google erfüllen. Jamba wurde mit einer Kombination aus öffentlichen und firmeneigenen Daten trainiert und kann Texte in Englisch, Französisch, Spanisch und Portugiesisch schreiben.

Ein einzigartiges Merkmal von Jamba ist seine Fähigkeit, bis zu 140.000 Token mit einem einzigen Grafikprozessor mit mindestens 80 GB Speicher zu verarbeiten, wie z.B. einem leistungsstarken Nvidia A100. Das entspricht etwa 105.000 Wörtern oder 210 Seiten, ein angemessener Umfang für einen Roman von guter Größe.

Im Vergleich dazu hat Meta’s Llama 2 ein Kontextfenster von 32.000 Token, was nach heutigen Maßstäben eine kleinere Größe ist, aber nur einen Grafikprozessor mit etwa 12 GB Speicher erfordert. (Kontextfenster werden in der Regel in Token gemessen, die Fragmente von Rohtext und anderen Daten sind).

Auf den ersten Blick mag Jamba wie ein gewöhnliches Modell erscheinen. Es gibt viele frei verfügbare und herunterladbare generative Modelle für künstliche Intelligenz, wie das kürzlich veröffentlichte DBRX von Databricks und das bereits erwähnte Llama 2.

Was Jamba einzigartig macht, ist das, was unter der Haube steckt. Es verwendet eine Kombination aus zwei Modellarchitekturen: Transformatoren und Zustandsraummodelle (SSMs).

Transformatoren sind die bevorzugte Architektur für komplexe Schlussfolgerungsaufgaben und Leistungsmodelle wie GPT-4 und das bereits erwähnte Google Gemini. Sie haben mehrere einzigartige Eigenschaften, aber das herausragende Merkmal von Transformatoren ist zweifellos ihr‚Aufmerksamkeitsmechanismus‚. Für jedes Stück Eingabedaten (z.B. einen Satz)‚wägen‚ Transformatoren die Relevanz aller anderen Eingaben (andere Sätze)abund ziehen daraus die Ausgabe (einen neuen Satz).

SSMs hingegen kombinieren verschiedene Qualitäten älterer Arten von Modellen der künstlichen Intelligenz, wie z.B. rekurrente neuronale Netze und konvolutionäre neuronale Netze, um eine rechnerisch effizientere Architektur zu schaffen, die in der Lage ist, lange Sequenzen von Daten zu verarbeiten.

SSMs haben ihre Grenzen. Einige frühe Inkarnationen, darunter ein Open-Source-Modell namens Mamba, das von Forschern in Princeton und Carnegie Mellon entwickelt wurde, können jedoch größere Eingaben verarbeiten als ihre transformatorbasierten Äquivalente und übertreffen diese bei Aufgaben der Spracherzeugung.

Jamba verwendet Mamba als Teil des Basismodells und Dagan sagt, dass es bei langen Kontexten einen dreifach höheren Durchsatz bietet als transformatorbasierte Modelle vergleichbarer Größe.

Obwohl es einige frühe akademische Beispiele für SSM-Modelle gibt, ist dies das erste kommerzielle Produktionsmodell„, sagte Dagan in einem Interview mit Tech.

sagte Dagan in einem Interview mit TechCrunch.

„Diese Architektur ist nicht nur innovativ und interessant für die weitere Forschung in der Community, sondern eröffnet auch große Möglichkeiten für Effizienz und Durchsatz.“

Obwohl Jamba unter der Apache 2.0-Lizenz, einer Open-Source-Lizenz mit wenigen Nutzungsbeschränkungen, veröffentlicht wurde, betont Dagan, dass es sich um eine Veröffentlichung zu Forschungszwecken handelt und nicht für eine kommerzielle Nutzung gedacht ist. Das Modell verfügt nicht über Sicherheitsvorkehrungen, um die Generierung von toxischem Text zu verhindern, oder über Abschwächungen, um mögliche Verzerrungen zu beseitigen. Eine verfeinerte und angeblich „sicherere“ Version wird in den kommenden Wochen zur Verfügung gestellt werden.

Dagan sagt jedoch, dass Jamba bereits in diesem frühen Stadium das Potenzial der SSM-Architektur demonstriert.

„DasBesondere an diesem Modell, sowohl was seine Größe als auch seine innovative Architektur betrifft, ist, dass es leicht an eine einzelne GPU angepasst werden kann„, sagte er.

sagte er.

„Wir glauben, dass sich die Leistung mit weiteren Optimierungen von Mamba weiter verbessern wird.“

Vorteile von Modellen der künstlichen Intelligenz mit breitem Kontext

Die Branche der künstlichen Intelligenz entwickelt sich weiter und geht immer mehr dazu über, generative Modelle mit breiterem Kontext einzusetzen. Diese Modelle, wie z.B. Jamba von AI21 Labs, ermöglichen es, mehr Informationen zu berücksichtigen, bevor die gewünschte Ausgabe erzeugt wird.

Modelle mit breiten Kontexten haben mehrere Vorteile gegenüber Modellen mit kleineren Kontextfenstern. Erstens sind Modelle mit breitem Kontext besser in der Lage, wichtige Informationen aus früheren Gesprächen zu verstehen und zu speichern. Das bedeutet, dass das Modell eine konsistentere und genauere Ausgabe erstellen kann und Wiederholungen oder Fehler aufgrund von fehlendem Kontext vermeidet.

Darüber hinaus sind Modelle mit breitem Kontext besser in der Lage, den Datenfluss, den sie betrachten, zu erfassen. Das bedeutet, dass sie den allgemeinen Kontext besser verstehen und eine Ausgabe erstellen können, die besser zu dem spezifischen Kontext passt, in dem sie verwendet wird.

Ein praktisches Beispiel für die Nützlichkeit von Modellen mit breitem Kontext ist der Bereich der Chatbots. Chatbots, die auf Modellen mit breitem Kontext basieren, können frühere Unterhaltungen besser verstehen und genauer und konsistenter auf Benutzerfragen antworten. Dies führt zu einer besseren und zufriedenstellenderen Benutzererfahrung.

Außerdem können Modelle mit breitem Kontext in einer Vielzahl von Bereichen und Anwendungen eingesetzt werden. Sie können zum Beispiel dazu verwendet werden, automatisch Texte zu generieren, von einer Sprache in eine andere zu übersetzen, realistische Dialoge für Videospiele oder Filme zu erstellen und vieles mehr.

Jamba: das Potenzial von SSM-Modellen

Ein interessanter Aspekt des Jamba-Modells von AI21 Labs ist die Verwendung einer Kombination aus zwei Modellarchitekturen: Transformatoren und Zustandsraummodelle (SSMs). Transformatoren sind dafür bekannt, dass sie bei komplexen Schlussfolgerungen sehr effektiv sind, während SSMs in der Lage sind, längere Datenfolgen zu verarbeiten.

Die kombinierte Verwendung dieser beiden Architekturen ermöglicht es Jamba, das Beste aus beiden Welten zu nutzen. Transformers bieten komplexe Argumentationsfähigkeiten wie Kontextanalyse und kohärente Texterzeugung, während SSMs die Verarbeitung längerer Datensequenzen ohne Leistungseinbußen ermöglichen.

Dieser hybride Ansatz bietet nachweislich den dreifachen Durchsatz bei langen Kontexten im Vergleich zu reinen Transformer-Modellen vergleichbarer Größe. Das bedeutet, dass Jamba in der Lage ist, konsistenten, qualitativ hochwertigen Text über lange Datensequenzen zu generieren, was einen erheblichen Vorteil gegenüber anderen auf dem Markt erhältlichen Modellen darstellt.

Artikelquelle hier.

AI21 Labs: Ein neues Modell künstlicher Intelligenz, das mehr Kontext als die meisten anderen verarbeiten kann

Vorteile von Modellen der künstlichen Intelligenz mit breitem Kontext

Jamba: das Potenzial von SSM-Modellen

Gefällt mir: