LLMs im Fokus: Warum die Größe der Sprachmodelle wichtig ist

Das "L" in Large Language Models (LLMs) suggeriert zwar eine enorme Größe, aber die Realität ist differenzierter. Einige LLMs enthalten Billionen von Parametern, während andere mit weit weniger effektiv arbeiten.

Werfen Sie einen Blick auf einige Beispiele aus der Praxis und die praktischen Auswirkungen der verschiedenen Modellgrößen.

LLM-Größen und Größenklassen

Als Webentwickler neigen wir dazu, die Größe einer Ressource als ihre Downloadgröße zu betrachten. Die dokumentierte Größe eines Modells bezieht sich stattdessen auf die Anzahl seiner Parameter. Gemma 2B bedeutet zum Beispiel Gemma mit 2 Milliarden Parametern.

Schlüsselbegriff: Parameter sind die numerischen Werte, die ein LLM während des Trainings lernt und die es anpasst, um Sprache zu verstehen.

LLMs können Hunderttausende, Millionen, Milliarden oder sogar Billionen von Parametern haben.

Größere LLMs haben mehr Parameter als ihre kleineren Gegenstücke, was es ihnen ermöglicht, komplexere Sprachbeziehungen zu erfassen und nuancierte Aufforderungen zu verarbeiten. Sie werden auch oft auf größeren Datensätzen trainiert.

Vielleicht ist Ihnen aufgefallen, dass bestimmte Modellgrößen, wie 2 Milliarden oder 7 Milliarden, üblich sind. Zum Beispiel: Gemma 2B, Gemma 7B oder Mistral 7B. Modellgrößenklassen sind ungefähre Gruppierungen. Gemma 2B hat zum Beispiel ungefähr 2 Milliarden Parameter, aber nicht genau.

Modellgrößenklassen bieten eine praktische Möglichkeit zur Bewertung der LLM-Leistung. Man kann sie sich wie Gewichtsklassen beim Boxen vorstellen: Modelle innerhalb der gleichen Größenklasse sind besser vergleichbar. Zwei 2B-Modelle sollten eine ähnliche Leistung bieten.

Dennoch kann ein kleineres Modell bei bestimmten Aufgaben die gleiche Leistung erbringen wie ein größeres Modell.

Modellgrößenklassen auf HuggingFace. Diese Klassen sind keine Industriestandards, sie haben sich organisch entwickelt.

Die Modellgrößen der neuesten LLMs, wie GPT-4 und Gemini Pro oder Ultra, werden zwar nicht immer offengelegt, aber man geht davon aus, dass sie Hunderte von Milliarden oder Billionen von Parametern umfassen.

Nicht alle Modelle geben die Anzahl der Parameter in ihrem Namen an. Einige Modelle sind mit ihrer Versionsnummer versehen. Zum Beispiel bezieht sich Gemini 1.5 Pro auf die Version 1.5 des Modells (nach Version 1).

LLM oder nicht?

Wann ist ein Modell zu klein, um ein LLM zu sein? Die Definition von LLM kann innerhalb der KI- und ML-Gemeinschaft etwas fließend sein.

Einige betrachten nur die größten Modelle mit Milliarden von Parametern als echte LLM, während kleinere Modelle, wie DistilBERT, als einfache NLP-Modelle gelten. Andere wiederum beziehen kleinere, aber immer noch leistungsfähige Modelle in die Definition von LLM ein, wie z. B. DistilBERT.

Kleinere LLMs für geräteinterne Anwendungsfälle

Größere LLMs benötigen viel Speicherplatz und eine hohe Rechenleistung für die Inferenz. Sie müssen auf speziellen leistungsstarken Servern mit spezieller Hardware (z. B. TPUs) laufen.

Als Webentwickler interessiert uns unter anderem, ob ein Modell klein genug ist, um heruntergeladen und auf dem Gerät eines Benutzers ausgeführt werden zu können.

Aber das ist eine schwer zu beantwortende Frage! Bis heute gibt es keine einfache Möglichkeit zu sagen, dass dieses Modell auf den meisten Geräten der Mittelklasse laufen kann, und zwar aus mehreren Gründen:

  • Die Fähigkeiten der Geräte variieren stark in Bezug auf Speicher, GPU/CPU-Spezifikationen und mehr. Ein einfaches Android-Telefon und ein NVIDIA® RTX-Laptop sind völlig unterschiedlich. Vielleicht haben Sie einige Datenpunkte über die Geräte Ihrer Benutzer. Wir haben noch keine Definition für ein Basisgerät, das für den Zugriff auf das Internet verwendet wird.
  • Ein Modell oder das Framework, in dem es läuft, kann für die Ausführung auf bestimmter Hardware optimiert sein.
  • Es gibt keine programmatische Methode, um festzustellen, ob ein bestimmtes LLM heruntergeladen und auf einem bestimmten Gerät ausgeführt werden kann. Die Download-Fähigkeit eines Geräts hängt unter anderem davon ab, wie viel VRAM auf der GPU vorhanden ist.

Wir verfügen jedoch über einige empirische Erkenntnisse: Heute können einige Modelle mit einigen Millionen bis einigen Milliarden Parametern im Browser auf Geräten der Verbraucherklasse ausgeführt werden.

Zum Beispiel:

Dies ist ein aufstrebendes Feld. Sie können davon ausgehen, dass sich die Landschaft weiterentwickeln wird:

  • Mit WebAssembly- und WebGPU-Innovationen, WebGPU-Unterstützung in weiteren Bibliotheken, neuen Bibliotheken und Optimierungen werden Benutzergeräte zunehmend in der Lage sein, LLMs verschiedener Größen effizient auszuführen.
  • Erwarten Sie, dass kleinere, hochleistungsfähige LLMs durch neue Schrumpfungstechniken immer häufiger werden.

Überlegungen für kleinere LLMs

Wenn Sie mit kleineren LLMs arbeiten, sollten Sie immer die Leistung und die Downloadgröße berücksichtigen.


Leistung

Die Leistungsfähigkeit eines jeden Modells hängt stark von Ihrem Anwendungsfall ab! Ein kleinerer LLM, der genau auf Ihren Anwendungsfall abgestimmt ist, kann eine bessere Leistung erbringen als ein größerer, allgemeiner LLM.

Innerhalb der gleichen Modellfamilie sind kleinere LLMs jedoch weniger leistungsfähig als ihre größeren Gegenstücke. Für den gleichen Anwendungsfall müssen Sie bei Verwendung eines kleineren LLMs in der Regel mehr prompte technische Arbeit leisten.

Die Punktzahl von Gemma 2B ist niedriger als die von Gemma 7B.
Quelle: HuggingFace Open LLM Leaderboard, April 2024

Download-Größe

Mehr Parameter bedeuten eine größere Downloadgröße, was sich auch darauf auswirkt, ob ein Modell, selbst wenn es als klein angesehen wird, für Anwendungsfälle auf dem Gerät vernünftig heruntergeladen werden kann.

Es gibt zwar Techniken zur Berechnung der Download-Größe eines Modells auf der Grundlage der Anzahl der Parameter, doch kann dies sehr komplex sein.

Ab Anfang 2024 sind die Download-Größen von Modellen nur noch selten dokumentiert. Daher empfehlen wir Ihnen, die Download-Größe für Ihre On-Device- und In-Browser-Anwendungsfälle empirisch zu ermitteln, und zwar im Netzwerk-Panel von Chrome DevTools oder mit anderen Browser-Entwickler-Tools.

Im Chrome DevTools Network Panel, Gemma 2B und DistilBERT für In-Browser, On-Device Inferenz in einer Webanwendung. Die Downloadgröße beträgt 1,3 GB bzw. 67 MB.

Modellschrumpfungstechniken

Schlüsselbegriff: Gewichte sind eine bestimmte Untergruppe von Parametern, die die Fähigkeit des Modells, Sprache zu verstehen und zu erzeugen, direkt beeinflussen.

Es gibt mehrere Techniken, um den Speicherbedarf eines Modells erheblich zu reduzieren:

  • LoRA (Low-Rank Adaptation): Eine Feinabstimmungstechnik, bei der die vortrainierten Gewichte eingefroren werden. Lesen Sie mehr über LoRA.
  • Pruning: Entfernen von weniger wichtigen Gewichten aus dem Modell, um dessen Größe zu reduzieren.
  • Quantisierung: Verringerung der Genauigkeit der Gewichte von Fließkommazahlen (z. B. 32-Bit) auf Darstellungen mit niedrigeren Bits (z. B. 8-Bit).
  • Wissensdestillation: Training eines kleineren Modells, um das Verhalten eines größeren, bereits trainierten Modells zu imitieren.
  • Gemeinsame Nutzung von Parametern: Verwendung der gleichen Gewichte für mehrere Teile des Modells, wodurch die Gesamtzahl der eindeutigen Parameter reduziert wird.