So laden Sie Llama 2 lokal herunter und installieren es

So laden Sie Llama 2 lokal herunter und installieren es
Leser wie Sie unterstützen MUO. Wenn Sie über Links auf unserer Website einen Kauf tätigen, erhalten wir möglicherweise eine Affiliate-Provision. Mehr lesen.

Meta veröffentlichte Llama 2 im Sommer 2023. Die neue Version von Llama ist mit 40 % mehr Token als das ursprüngliche Llama-Modell verfeinert, verdoppelt ihre Kontextlänge und übertrifft andere verfügbare Open-Source-Modelle deutlich. Der schnellste und einfachste Weg, auf Llama 2 zuzugreifen, ist über eine API über eine Online-Plattform. Wenn Sie jedoch das beste Erlebnis wünschen, ist es am besten, Llama 2 direkt auf Ihrem Computer zu installieren und zu laden.





Vor diesem Hintergrund haben wir eine Schritt-für-Schritt-Anleitung erstellt, wie Sie mit Text-Generation-WebUI ein quantisiertes Llama 2 LLM lokal auf Ihren Computer laden können.





Warum Llama 2 lokal installieren?

Es gibt viele Gründe, warum sich Menschen dafür entscheiden, Llama 2 direkt auszuführen. Einige tun dies aus Datenschutzgründen, andere aus Gründen der Anpassung und wieder andere aus Gründen der Offline-Funktionalität. Wenn Sie Llama 2 für Ihre Projekte erforschen, verfeinern oder integrieren, ist der Zugriff auf Llama 2 über die API möglicherweise nicht das Richtige für Sie. Der Zweck der lokalen Ausführung eines LLM auf Ihrem PC besteht darin, die Abhängigkeit von zu verringern KI-Tools von Drittanbietern und nutzen Sie KI jederzeit und überall, ohne befürchten zu müssen, dass potenziell sensible Daten an Unternehmen und andere Organisationen weitergegeben werden.





Beginnen wir nun mit der Schritt-für-Schritt-Anleitung zur lokalen Installation von Llama 2.

Schritt 1: Installieren Sie das Visual Studio 2019 Build Tool

Zur Vereinfachung verwenden wir ein Ein-Klick-Installationsprogramm für Text-Generation-WebUI (das Programm, das zum Laden von Llama 2 mit GUI verwendet wird). Damit dieses Installationsprogramm funktioniert, müssen Sie jedoch das Visual Studio 2019 Build Tool herunterladen und die erforderlichen Ressourcen installieren.



Herunterladen: Visual Studio 2019 (Frei)

  1. Laden Sie die Community-Edition der Software herunter.
  2. Installieren Sie nun Visual Studio 2019 und öffnen Sie dann die Software. Aktivieren Sie nach dem Öffnen das Kästchen Desktop-Entwicklung mit C++ und klicken Sie auf „Installieren“.   Benennungskonvention für HuggingFace-Modelle

Nachdem Sie nun die Desktop-Entwicklung mit C++ installiert haben, ist es an der Zeit, das Ein-Klick-Installationsprogramm für Text-Generation-WebUI herunterzuladen.





Schritt 2: Installieren Sie Text-Generation-WebUI

Das Ein-Klick-Installationsprogramm für Text-Generation-WebUI ist ein Skript, das automatisch die erforderlichen Ordner erstellt und die Conda-Umgebung sowie alle erforderlichen Anforderungen zum Ausführen eines KI-Modells einrichtet.

Um das Skript zu installieren, laden Sie das One-Click-Installationsprogramm herunter, indem Sie auf klicken Code > ZIP herunterladen.





Herunterladen: Text-Generation-WebUI-Installer (Frei)

  1. Extrahieren Sie nach dem Herunterladen die ZIP-Datei an Ihren bevorzugten Speicherort und öffnen Sie dann den extrahierten Ordner.
  2. Scrollen Sie im Ordner nach unten und suchen Sie nach dem passenden Startprogramm für Ihr Betriebssystem. Führen Sie die Programme aus, indem Sie auf das entsprechende Skript doppelklicken.
    • Wenn Sie Windows verwenden, wählen Sie start_windows Batchdatei
    • Wählen Sie für MacOS aus start_macos Shell-Schriftzug
    • für Linux, start_linux Shell-Skript.   Laden Sie das Llama 2-Modell Ihrer Wahl herunter
  3. Ihr Antivirenprogramm erstellt möglicherweise eine Warnung. das ist in Ordnung. Die Eingabeaufforderung ist nur eine Antivirus falsch positiv zum Ausführen einer Batchdatei oder eines Skripts. Klicke auf Renn weg .
  4. Ein Terminal öffnet sich und startet die Einrichtung. Zu Beginn pausiert das Setup und fragt Sie, welche GPU Sie verwenden. Wählen Sie den entsprechenden GPU-Typ aus, der auf Ihrem Computer installiert ist, und drücken Sie die Eingabetaste. Wählen Sie für diejenigen ohne dedizierte Grafikkarte Keine (Ich möchte Modelle im CPU-Modus ausführen) . Bedenken Sie, dass die Ausführung im CPU-Modus viel langsamer ist als die Ausführung des Modells mit einer dedizierten GPU.   Platzieren des Llama 2-Modells im Modellordner
  5. Sobald die Einrichtung abgeschlossen ist, können Sie Text-Generation-WebUI nun lokal starten. Sie können dies tun, indem Sie Ihren bevorzugten Webbrowser öffnen und die bereitgestellte IP-Adresse in die URL eingeben.
  6. Die WebUI ist nun einsatzbereit.

Das Programm ist jedoch nur ein Modelllader. Laden wir Llama 2 herunter, damit der Modelllader startet.

Schritt 3: Laden Sie das Llama 2-Modell herunter

Bei der Entscheidung, welche Version von Llama 2 Sie benötigen, müssen einige Dinge berücksichtigt werden. Dazu gehören Parameter, Quantisierung, Hardwareoptimierung, Größe und Nutzung. Alle diese Informationen finden Sie im Namen des Modells.

  • Parameter: Die Anzahl der Parameter, die zum Trainieren des Modells verwendet werden. Größere Parameter machen leistungsfähigere Modelle, allerdings auf Kosten der Leistung.
  • Verwendung: Kann entweder Standard oder Chat sein. Ein Chat-Modell ist für die Verwendung als Chatbot wie ChatGPT optimiert, während der Standard das Standardmodell ist.
  • Hardware-Optimierung: Bezieht sich darauf, welche Hardware das Modell am besten ausführt. GPTQ bedeutet, dass das Modell für die Ausführung auf einer dedizierten GPU optimiert ist, während GGML für die Ausführung auf einer CPU optimiert ist.
  • Quantisierung: Bezeichnet die Präzision von Gewichten und Aktivierungen in einem Modell. Für die Inferenzierung ist eine Genauigkeit von q4 optimal.
  • Größe: Bezieht sich auf die Größe des jeweiligen Modells.

Beachten Sie, dass einige Modelle möglicherweise anders angeordnet sind und möglicherweise nicht einmal die gleichen Arten von Informationen angezeigt werden. Allerdings ist diese Art der Namenskonvention im Internet recht verbreitet Umarmendes Gesicht Modellbibliothek, daher lohnt es sich immer noch, sie zu verstehen.

In diesem Beispiel kann das Modell als mittelgroßes Llama-2-Modell identifiziert werden, das auf 13 Milliarden Parametern trainiert wurde und für die Chat-Inferenz unter Verwendung einer dedizierten CPU optimiert wurde.

So verschieben Sie eine Datei von einem Computer auf einen anderen

Für diejenigen, die auf einer dedizierten GPU laufen, wählen Sie a GPTQ Modell, während für diejenigen, die eine CPU verwenden, wählen Sie GGML . Wenn Sie mit dem Model wie mit ChatGPT chatten möchten, wählen Sie Plaudern , aber wenn Sie mit dem Modell in vollem Umfang experimentieren möchten, verwenden Sie die Standard Modell. Was die Parameter betrifft, sollten Sie wissen, dass die Verwendung größerer Modelle bessere Ergebnisse auf Kosten der Leistung liefert. Ich persönlich würde Ihnen empfehlen, mit einem 7B-Modell zu beginnen. Verwenden Sie für die Quantisierung q4, da dies nur der Schlussfolgerung dient.

Herunterladen: GGML (Frei)

Herunterladen: GPTQ (Frei)

Nachdem Sie nun wissen, welche Version von Llama 2 Sie benötigen, können Sie das gewünschte Modell herunterladen.

Da ich dies in meinem Fall auf einem Ultrabook verwende, verwende ich ein GGML-Modell, das für den Chat optimiert ist. call-2-7b-chat-ggmlv3.q4_K_S.bin.

Nachdem der Download abgeschlossen ist, platzieren Sie das Modell text-generation-webui-main > Modelle .

Nachdem Sie Ihr Modell heruntergeladen und im Modellordner abgelegt haben, ist es an der Zeit, den Modelllader zu konfigurieren.

Schritt 4: Konfigurieren Sie Text-Generierung-WebUI

Beginnen wir nun mit der Konfigurationsphase.

  1. Öffnen Sie erneut Text-Generation-WebUI, indem Sie Folgendes ausführen start_(Ihr Betriebssystem) Datei (siehe die vorherigen Schritte oben).
  2. Klicken Sie auf den Registerkarten oberhalb der GUI auf Modell. Klicken Sie im Modell-Dropdown-Menü auf die Schaltfläche „Aktualisieren“ und wählen Sie Ihr Modell aus.
  3. Klicken Sie nun auf das Dropdown-Menü des Modelllader und auswählen AutoGPTQ für diejenigen, die ein GTPQ-Modell verwenden und ctransformatoren für diejenigen, die ein GGML-Modell verwenden. Klicken Sie abschließend auf Belastung um Ihr Modell zu laden.
  4. Um das Modell zu verwenden, öffnen Sie die Registerkarte „Chat“ und beginnen Sie mit dem Testen des Modells.

Herzlichen Glückwunsch, Sie haben Llama2 erfolgreich auf Ihren lokalen Computer geladen!

Probieren Sie andere LLMs aus

Da Sie nun wissen, wie Sie Llama 2 mit Text-Generation-WebUI direkt auf Ihrem Computer ausführen, sollten Sie neben Llama auch andere LLMs ausführen können. Denken Sie nur an die Namenskonventionen von Modellen und daran, dass nur quantisierte Versionen von Modellen (normalerweise q4-Präzision) auf normale PCs geladen werden können. Viele quantisierte LLMs sind auf HuggingFace verfügbar. Wenn Sie andere Modelle erkunden möchten, suchen Sie in der Modellbibliothek von HuggingFace nach TheBloke. Dort sollten viele Modelle verfügbar sein.