Jak stáhnout a nainstalovat Llama 2 lokálně - |Vysvětlení technologie|DIY|

Čtenáři jako vy pomáhají podporovat MUO. Když provedete nákup pomocí odkazů na našich stránkách, můžeme získat provizi přidružené společnosti. Přečtěte si více.

Meta vydala Llama 2 v létě 2023. Nová verze Llama je vyladěna o 40 % více tokenů než původní model Llama, čímž se zdvojnásobila délka kontextu a výrazně předčí ostatní dostupné modely s otevřeným zdrojovým kódem. Nejrychlejší a nejsnadnější způsob, jak získat přístup k Llama 2, je prostřednictvím API prostřednictvím online platformy. Pokud však chcete ten nejlepší zážitek, je nejlepší nainstalovat a načíst Llama 2 přímo na váš počítač.

S ohledem na to jsme vytvořili podrobný návod, jak používat Text-Generation-WebUI k načtení kvantizovaného Llama 2 LLM lokálně do vašeho počítače.

Proč instalovat Llama 2 lokálně

Existuje mnoho důvodů, proč se lidé rozhodnou spustit Llamu 2 přímo. Někteří to dělají kvůli ochraně soukromí, někteří kvůli přizpůsobení a další kvůli možnostem offline. Pokud zkoumáte, dolaďujete nebo integrujete Llama 2 pro své projekty, pak přístup k Llama 2 přes API nemusí být pro vás. Smyslem spuštění LLM lokálně na vašem PC je snížit závislost na nástroje umělé inteligence třetích stran a používejte umělou inteligenci kdykoli a kdekoli, aniž byste se museli obávat úniku potenciálně citlivých dat do společností a dalších organizací.

kde koupit použité počítačové díly

S tím, co bylo řečeno, začněme s podrobným průvodcem pro místní instalaci Llama 2.

Krok 1: Nainstalujte Visual Studio 2019 Build Tool

Pro zjednodušení použijeme instalátor na jedno kliknutí pro Text-Generation-WebUI (program používaný k načtení Llama 2 s GUI). Aby však tento instalační program fungoval, musíte si stáhnout nástroj Visual Studio 2019 Build Tool a nainstalovat potřebné prostředky.

Stažení: Visual Studio 2019 (Volný, uvolnit)

Pokračujte a stáhněte si komunitní verzi softwaru.
Nyní nainstalujte Visual Studio 2019 a poté otevřete software. Po otevření zaškrtněte políčko Vývoj desktopů v C++ a stiskni nainstalovat.

Nyní, když máte nainstalovaný vývoj Desktop s C++, je čas stáhnout si instalační program Text-Generation-WebUI na jedno kliknutí.

Krok 2: Nainstalujte Text-Generation-WebUI

Instalační program na jedno kliknutí Text-Generation-WebUI je skript, který automaticky vytvoří požadované složky a nastaví prostředí Conda a všechny nezbytné požadavky pro spuštění modelu AI.

Chcete-li skript nainstalovat, stáhněte si instalační program jedním kliknutím kliknutím na Kód > Stáhnout ZIP.

Stažení: Text-Generation-WebUI Installer (Volný, uvolnit)

Po stažení rozbalte soubor ZIP do preferovaného umístění a poté rozbalenou složku otevřete.
Ve složce přejděte dolů a vyhledejte vhodný spouštěcí program pro váš operační systém. Spusťte programy poklepáním na příslušný skript.
- Pokud používáte Windows, vyberte start_windows dávkový soubor
- pro MacOS vyberte start_macos skořápka
- pro Linux, start_linux shell skript.
Váš antivirus může vytvořit výstrahu; Tohle je fajn. Výzva je jen antivirus falešně pozitivní pro spuštění dávkového souboru nebo skriptu. Klikněte na Stejně běž .
Otevře se terminál a spustí se nastavení. Brzy se nastavení pozastaví a zeptá se vás, jaký GPU používáte. Vyberte příslušný typ GPU nainstalovaného v počítači a stiskněte klávesu Enter. Pro ty, kteří nemají vyhrazenou grafickou kartu, vyberte Žádné (chci spouštět modely v režimu CPU) . Mějte na paměti, že běh v režimu CPU je mnohem pomalejší ve srovnání se spuštěním modelu s vyhrazeným GPU.
Jakmile je nastavení dokončeno, můžete nyní lokálně spustit Text-Generation-WebUI. Můžete tak učinit otevřením preferovaného webového prohlížeče a zadáním poskytnuté IP adresy na URL.
WebUI je nyní připraveno k použití.

Program je však pouze modelovým zavaděčem. Pojďme si stáhnout Llamu 2 pro model loader ke spuštění.

Krok 3: Stáhněte si model Llama 2

Při rozhodování, jakou iteraci Llama 2 potřebujete, je třeba vzít v úvahu několik věcí. Patří mezi ně parametry, kvantizace, optimalizace hardwaru, velikost a využití. Všechny tyto informace budou uvedeny v názvu modelu.

Parametry: Počet parametrů použitých k trénování modelu. Větší parametry dělají schopnější modely, ale za cenu výkonu.
Používání: Může být standardní nebo chat. Chatovací model je optimalizován pro použití jako chatbot jako ChatGPT, zatímco standardní je výchozí model.
Optimalizace hardwaru: Odkazuje na to, jaký hardware nejlépe provozuje model. GPTQ znamená, že model je optimalizován pro běh na vyhrazeném GPU, zatímco GGML je optimalizován pro běh na CPU.
Kvantování: Označuje přesnost vah a aktivací v modelu. Pro odvození je optimální přesnost q4.
Velikost: Vztahuje se na velikost konkrétního modelu.

Všimněte si, že některé modely mohou být uspořádány odlišně a nemusí mít dokonce zobrazeny stejné typy informací. Tento typ konvence pojmenování je však v USA poměrně běžný Objímání tváře Modelová knihovna, takže stále stojí za pochopení.

V tomto příkladu lze model identifikovat jako středně velký model Llama 2 trénovaný na 13 miliardách parametrů optimalizovaných pro odvození chatu pomocí vyhrazeného CPU.

Pro ty, kteří používají vyhrazený GPU, zvolte a GPTQ model, zatímco pro ty, kteří používají CPU, vyberte GGML . Pokud chcete s modelem chatovat jako s ChatGPT, vyberte si povídat si , ale pokud chcete experimentovat s modelem s jeho plnými schopnostmi, použijte Standard Modelka. Pokud jde o parametry, vězte, že použití větších modelů poskytne lepší výsledky na úkor výkonu. Osobně bych vám doporučil začít s modelem 7B. Pokud jde o kvantování, použijte q4, protože slouží pouze k vyvozování.

rozdíl mezi iphone 11 pro a 12 pro

Stažení: GGML (Volný, uvolnit)

Stažení: GPTQ (Volný, uvolnit)

Nyní, když víte, jakou iteraci Llama 2 potřebujete, pokračujte a stáhněte si model, který chcete.

V mém případě, protože to provozuji na ultrabooku, budu používat model GGML vyladěný pro chat, call-2-7b-chat-ggmlv3.q4_K_S.bin.

Po dokončení stahování vložte model dovnitř generování textu-webui-main > modely .

Nyní, když máte model stažený a umístěný ve složce modelu, je čas nakonfigurovat zavaděč modelu.

Krok 4: Nakonfigurujte Text-Generation-WebUI

Nyní zahájíme fázi konfigurace.

Znovu otevřete Text-Generation-WebUI spuštěním start_(váš operační systém) soubor (viz předchozí kroky výše).
Na kartách umístěných nad GUI klikněte Modelka. Klikněte na tlačítko aktualizace v rozbalovací nabídce modelu a vyberte svůj model.
Nyní klikněte na rozbalovací nabídku Modelový nakladač a vyberte AutoGPTQ pro ty, kteří používají model GTPQ a ctransformátory pro ty, kteří používají model GGML. Nakonec klikněte na Zatížení k načtení vašeho modelu.
Chcete-li model použít, otevřete kartu Chat a začněte testovat model.

Gratulujeme, úspěšně jste nahráli Llama2 do svého místního počítače!

Vyzkoušejte jiné LLM

Nyní, když víte, jak spustit Llama 2 přímo na vašem počítači pomocí Text-Generation-WebUI, měli byste být schopni spouštět i další LLM kromě Llama. Stačí si pamatovat konvence pojmenování modelů a to, že na běžné počítače lze načíst pouze kvantované verze modelů (obvykle s přesností q4). Na HuggingFace je k dispozici mnoho kvantovaných LLM. Pokud chcete prozkoumat další modely, vyhledejte TheBloke v knihovně modelů HuggingFace a měli byste najít mnoho dostupných modelů.