Das "L" in Large Language Models (LLMs) suggeriert zwar eine enorme Größe, aber die Realität ist differenzierter. Einige LLMs enthalten Billionen von Parametern, während andere mit weit weniger effektiv arbeiten.
Werfen Sie einen Blick auf einige Beispiele aus der Praxis und die praktischen Auswirkungen der verschiedenen Modellgrößen.
Als Webentwickler neigen wir dazu, die Größe einer Ressource als ihre Downloadgröße zu betrachten. Die dokumentierte Größe eines Modells bezieht sich stattdessen auf die Anzahl seiner Parameter. Gemma 2B bedeutet zum Beispiel Gemma mit 2 Milliarden Parametern.
Schlüsselbegriff: Parameter sind die numerischen Werte, die ein LLM während des Trainings lernt und die es anpasst, um Sprache zu verstehen.
LLMs können Hunderttausende, Millionen, Milliarden oder sogar Billionen von Parametern haben.
Größere LLMs haben mehr Parameter als ihre kleineren Gegenstücke, was es ihnen ermöglicht, komplexere Sprachbeziehungen zu erfassen und nuancierte Aufforderungen zu verarbeiten. Sie werden auch oft auf größeren Datensätzen trainiert.
Vielleicht ist Ihnen aufgefallen, dass bestimmte Modellgrößen, wie 2 Milliarden oder 7 Milliarden, üblich sind. Zum Beispiel: Gemma 2B, Gemma 7B oder Mistral 7B. Modellgrößenklassen sind ungefähre Gruppierungen. Gemma 2B hat zum Beispiel ungefähr 2 Milliarden Parameter, aber nicht genau.
Modellgrößenklassen bieten eine praktische Möglichkeit zur Bewertung der LLM-Leistung. Man kann sie sich wie Gewichtsklassen beim Boxen vorstellen: Modelle innerhalb der gleichen Größenklasse sind besser vergleichbar. Zwei 2B-Modelle sollten eine ähnliche Leistung bieten.
Dennoch kann ein kleineres Modell bei bestimmten Aufgaben die gleiche Leistung erbringen wie ein größeres Modell.
Die Modellgrößen der neuesten LLMs, wie GPT-4 und Gemini Pro oder Ultra, werden zwar nicht immer offengelegt, aber man geht davon aus, dass sie Hunderte von Milliarden oder Billionen von Parametern umfassen.
Nicht alle Modelle geben die Anzahl der Parameter in ihrem Namen an. Einige Modelle sind mit ihrer Versionsnummer versehen. Zum Beispiel bezieht sich Gemini 1.5 Pro auf die Version 1.5 des Modells (nach Version 1).
Wann ist ein Modell zu klein, um ein LLM zu sein? Die Definition von LLM kann innerhalb der KI- und ML-Gemeinschaft etwas fließend sein.
Einige betrachten nur die größten Modelle mit Milliarden von Parametern als echte LLM, während kleinere Modelle, wie DistilBERT, als einfache NLP-Modelle gelten. Andere wiederum beziehen kleinere, aber immer noch leistungsfähige Modelle in die Definition von LLM ein, wie z. B. DistilBERT.
Größere LLMs benötigen viel Speicherplatz und eine hohe Rechenleistung für die Inferenz. Sie müssen auf speziellen leistungsstarken Servern mit spezieller Hardware (z. B. TPUs) laufen.
Als Webentwickler interessiert uns unter anderem, ob ein Modell klein genug ist, um heruntergeladen und auf dem Gerät eines Benutzers ausgeführt werden zu können.
Aber das ist eine schwer zu beantwortende Frage! Bis heute gibt es keine einfache Möglichkeit zu sagen, dass dieses Modell auf den meisten Geräten der Mittelklasse laufen kann, und zwar aus mehreren Gründen:
Wir verfügen jedoch über einige empirische Erkenntnisse: Heute können einige Modelle mit einigen Millionen bis einigen Milliarden Parametern im Browser auf Geräten der Verbraucherklasse ausgeführt werden.
Zum Beispiel:
Dies ist ein aufstrebendes Feld. Sie können davon ausgehen, dass sich die Landschaft weiterentwickeln wird:
Wenn Sie mit kleineren LLMs arbeiten, sollten Sie immer die Leistung und die Downloadgröße berücksichtigen.
Die Leistungsfähigkeit eines jeden Modells hängt stark von Ihrem Anwendungsfall ab! Ein kleinerer LLM, der genau auf Ihren Anwendungsfall abgestimmt ist, kann eine bessere Leistung erbringen als ein größerer, allgemeiner LLM.
Innerhalb der gleichen Modellfamilie sind kleinere LLMs jedoch weniger leistungsfähig als ihre größeren Gegenstücke. Für den gleichen Anwendungsfall müssen Sie bei Verwendung eines kleineren LLMs in der Regel mehr prompte technische Arbeit leisten.
Mehr Parameter bedeuten eine größere Downloadgröße, was sich auch darauf auswirkt, ob ein Modell, selbst wenn es als klein angesehen wird, für Anwendungsfälle auf dem Gerät vernünftig heruntergeladen werden kann.
Es gibt zwar Techniken zur Berechnung der Download-Größe eines Modells auf der Grundlage der Anzahl der Parameter, doch kann dies sehr komplex sein.
Ab Anfang 2024 sind die Download-Größen von Modellen nur noch selten dokumentiert. Daher empfehlen wir Ihnen, die Download-Größe für Ihre On-Device- und In-Browser-Anwendungsfälle empirisch zu ermitteln, und zwar im Netzwerk-Panel von Chrome DevTools oder mit anderen Browser-Entwickler-Tools.
Schlüsselbegriff: Gewichte sind eine bestimmte Untergruppe von Parametern, die die Fähigkeit des Modells, Sprache zu verstehen und zu erzeugen, direkt beeinflussen.
Es gibt mehrere Techniken, um den Speicherbedarf eines Modells erheblich zu reduzieren: