Hugging Face – EinfachAlex Web Design

Mistral AI stellt Mistral-7B v0.3 vor: Dein umfassender Guide

alex — Wed, 29 May 2024 08:19:19 +0000

Mistral AI hat kürzlich seine Mistral-7B-Serie aktualisiert und die neuen Modelle Mistral-7B-v0.3 und Mistral-7B-Instruct-v0.3 veröffentlicht. Diese neuesten Versionen versprechen erhebliche Verbesserungen in Bezug auf Effizienz und Leistungsfähigkeit. In diesem umfassenden Guide werde ich dir die neuen Funktionen und Verbesserungen vorstellen und zeigen, wie du das Beste aus diesen Modellen herausholen kannst.

Einführung

Mistral AI ist bekannt für seine fortschrittlichen Sprachmodelle, die in vielen Bereichen Anwendung finden. Mit der Veröffentlichung von Mistral-7B-v0.3 und Mistral-7B-Instruct-v0.3 bringt das Unternehmen seine Modelle auf das nächste Level. Die neuen Versionen bieten eine erweiterte Wortschatzunterstützung und die Fähigkeit, externe Funktionen zu nutzen, was die Integration in verschiedene Anwendungen erleichtert. In diesem Artikel werde ich dir einen detaillierten Überblick über die neuen Funktionen und die Anwendungsmöglichkeiten der Modelle geben.

Unterschiede zwischen Mistral-7B und Mistral-7B-Instruct

Beide Modelle verfügen über die gleiche Intelligenz, jedoch ist das Mistral-7B-Instruct-Modell darauf optimiert, Anweisungen zu folgen. Dies ermöglicht es, Aufgaben und Fragen natürlicher zu beantworten. Das Basismodell hingegen besitzt diese Fähigkeit nicht.

Was ist neu?

Verbesserungen im Überblick

Das Mistral-7B-v0.3-Modell bietet im Vergleich zu seinen Vorgängern signifikante Verbesserungen. Dazu gehört ein erweiterter Wortschatz und die Unterstützung des v3 Tokenizers, was das Sprachverständnis und die Textgenerierung verbessert. Die Möglichkeit, externe Funktionen aufzurufen, eröffnet viele neue Integrationsmöglichkeiten.

Änderungen im Mistral-7B-v0.3-Instruct gegenüber Mistral-7B-v0.2-Instruct:

Erweiterter Wortschatz auf 32.768 Tokens
Unterstützung des v3 Tokenizers
Unterstützung für Funktionsaufrufe

Änderungen im Mistral-7B-v0.3 gegenüber Mistral-7B-v0.2:

Erweiterter Wortschatz auf 32.768 Tokens

Erweiterter Wortschatz

Eine der wichtigsten Verbesserungen in der neuesten Version ist der erweiterte Wortschatz. Das Modell unterstützt nun 32.768 Tokens, was eine erhebliche Steigerung gegenüber der vorherigen Version darstellt. Dieser erweiterte Wortschatz ermöglicht es Mistral-7B-Instruct-v0.3, eine größere Vielfalt an Wörtern und Phrasen zu verstehen und zu generieren, wodurch komplexere und vielfältigere Sprachaufgaben bewältigt werden können.

Unterstützung für den v3 Tokenizer

Eine weitere bemerkenswerte Neuerung ist die Unterstützung für den v3 Tokenizer. Tokenisierung ist ein entscheidender Schritt in der natürlichen Sprachverarbeitung, bei dem Text in kleinere Einheiten, sogenannte Tokens, zerlegt wird. Der v3 Tokenizer bietet verbesserte Leistung und Kompatibilität, was sicherstellt, dass das Modell den Eingabetext effizienter verarbeiten und verstehen kann.

Funktionsaufruf-Fähigkeit

Die vielleicht spannendste Funktion des Mistral-7B-Instruct-v0.3 ist die Unterstützung für Funktionsaufrufe. Dies bedeutet, dass das Modell nun mit externen Funktionen und APIs interagieren kann, was seine Fähigkeiten erheblich erweitert. Durch die Nutzung von Funktionsaufrufen können Entwickler das Modell in verschiedene Anwendungen integrieren, wodurch es Aufgaben weit über die einfache Textgenerierung hinaus ausführen kann.

Zugang zu Mistral-7B-Instruct-v0.3

Es gibt verschiedene Methoden, um die Mistral-Modelle zu installieren und zu nutzen. Im Folgenden werde ich einige der beliebtesten Optionen vorstellen.

Option 1: ChatLabs

ChatLabs ist ein All-in-One-GenAI-Playground, der Zugang zu über 30 der besten KI-Modelle bietet. ChatLabs macht es einfach, Mistral-7B-v0.3, Mistral-7B-Instruct-v0.3 und viele andere Modelle zu verwenden.

So nutzt du ChatLabs:

Besuche die ChatLabs-Website und logge dich ein.
Wähle dein Modell: Klicke auf das Dropdown-Menü oben rechts und wähle das Mistral 7B-Modell.
Nutze die Power der Modelle: Beginne mit der Nutzung des ausgewählten Modells.

Mit einem ChatLabs Pro-Konto erhältst du Zugang zu Modellen wie Gemini 1.5 Pro, GPT-4 Turbo, Meta AI LLaMA 3, Opus Claude 3 und vielen mehr. Zudem kannst du im Web suchen, Bilder erstellen, die Prompt-Bibliothek erkunden und benutzerdefinierte KI-Assistenten bauen. Eine praktische Split-Screen-Funktion ermöglicht es dir, zwei Modelle gleichzeitig zu verwenden und zu vergleichen.

Option 2: Mistral-Inference auf Hugging Face

Wenn du Zugang zu Mistral-7B v0.3 möchtest, kannst du die offizielle mistral_inference-Bibliothek verwenden, die eine bequeme Option darstellt.

Installation von Hugging Face:

pip install mistral_inference

Download von Hugging Face:

from huggingface_hub import snapshot_download
from pathlib import Path

# Definiere den Pfad zum Speichern des Modells
mistral_models_path = Path.home().joinpath('mistral_models', '7B-Instruct-v0.3')
mistral_models_path.mkdir(parents=True, exist_ok=True)

# Lade das Modell herunter
snapshot_download(repo_id="mistralai/Mistral-7B-Instruct-v0.3",
                  allow_patterns=["params.json", "consolidated.safetensors", "tokenizer.model.v3"],
                  local_dir=mistral_models_path)

Mehr Informationen dazu findest du auf der Hugging Face Website.

Option 3: OLLaMA

OLLaMA ist eine Open-Source-Bibliothek, die die Nutzung großer Sprachmodelle erleichtert. Sie bietet eine einheitliche Schnittstelle für Modelle wie GPT-4, LLaMA und T5, was die Bedienung vereinfacht.

Wichtige Funktionen von OLLaMA:

Einheitliche Schnittstelle: Bietet eine konsistente und benutzerfreundliche Schnittstelle für verschiedene Modelle.
Modellkompatibilität: Unterstützt eine Vielzahl beliebter Sprachmodelle, was Entwicklern die nötige Flexibilität gibt.
Vereinfachtes Modell-Loading: Streamlined den Prozess des Ladens und Initialisierens von Modellen, was Zeit und Mühe spart.

Nutzung von OLLaMA:

pip install ollama

Lade das benötigte Modell:

from ollama import OLLaMA

model = OLLaMA("gpt-3")

prompt = "Was ist Künstliche Intelligenz?"
response = model.generate(prompt)
print(response)

Mehr Informationen zu OLLaMA findest du auf deren GitHub-Seite.

Option 4: LM Studio

LM Studio ist eine weitere hervorragende Plattform für die Arbeit mit großen Sprachmodellen. Sie bietet eine benutzerfreundliche Oberfläche und Funktionen wie Feinabstimmung, Prompt-Engineering und Modellauswertung.

Wichtige Funktionen von LM Studio:

Benutzerfreundliche Oberfläche: Bietet eine intuitive webbasierte Oberfläche, die für Nutzer mit unterschiedlichem technischen Hintergrund zugänglich ist.
Feinabstimmung: Ermöglicht Nutzern die Feinabstimmung von Modellen auf ihren Datensätzen für spezifische Aufgaben.
Prompt-Engineering: Hilft, effektive Prompts zu entwerfen, um die Ausgabequalität des Modells zu verbessern.
Modellauswertung: Bietet integrierte Metriken und Visualisierungen zur Bewertung der Modellleistung.

Nutzung von LM Studio:

Melde dich auf der LM Studio-Website an.
Lade LM Studio für dein Gerät herunter.
Erstelle ein neues Projekt und wähle ein Sprachmodell.
Lade deinen Datensatz zur Feinabstimmung hoch oder nutze die bereitgestellten Datensätze.
Konfiguriere die Modelleinstellungen wie die Anzahl der Epochen, Batch-Größe und Lernrate.
Trainiere das Modell und bewerte seine Leistung mit den bereitgestellten Tools.
Nutze das trainierte Modell für verschiedene Aufgaben wie Textgenerierung und Beantwortung von Fragen.

Während mistral_inference speziell für Mistral-Modelle entwickelt wurde, bieten OLLaMA und LM Studio mehr Flexibilität in Bezug auf die Modellauswahl und Anpassungsmöglichkeiten. Entwickler können das beste Tool basierend auf Benutzerfreundlichkeit, Modellkompatibilität, erforderlichen Funktionen und Leistungsanforderungen auswählen.

Fazit

Mistral-7B-Instruct-v0.3 stellt einen bedeutenden Fortschritt bei großen Sprachmodellen dar. Mit seinem erweiterten Wortschatz, der Unterstützung des v3 Tokenizers und der Fähigkeit, Funktionen aufzurufen, bietet es verbesserte Leistung und Vielseitigkeit. Entwickler haben mehrere Optionen, um Mistral-7B-Instruct-v0.3 zu nutzen, sei es über die mistral_inference-Bibliothek oder flexible Alternativen wie ChatLabs, OLLaMA und LM Studio. Durch die Berücksichtigung von Benutzerfreundlichkeit, Kompatibilität, Funktionen und Leistung können Entwickler das beste Tool für ihre Projekte auswählen.

Zitat des Tages

„Die besten Lösungen entstehen durch Zusammenarbeit und Innovation.“ – Alex

FAQs

Was sind die Hauptunterschiede zwischen Mistral-7B und Mistral-7B-Instruct?

Das Mistral-7B-Instruct-Modell ist darauf optimiert, Anweisungen zu folgen und Aufgaben natürlicher zu erledigen, während das Basismodell diese Fähigkeit nicht besitzt.

Welche neuen Funktionen bietet Mistral-7B-Instruct-v0.3?

Das Modell unterstützt jetzt einen erweiterten Wortschatz von 32.768 Tokens, den v3 Tokenizer und die Fähigkeit, externe Funktionen aufzurufen.

Wie kann ich Mistral-7B-Instruct-v0.3 verwenden?

Es gibt mehrere Methoden zur Nutzung des Modells, einschließlich ChatLabs, Hugging Face, OLLaMA und LM Studio.

Warum ist die Unterstützung des v3 Tokenizers wichtig?

Der v3 Tokenizer bietet verbesserte Leistung und Kompatibilität, was die Effizienz bei der Verarbeitung und dem Verständnis von Eingabetexten erhöht.

Welche Vorteile bietet die Funktionsaufruf-Fähigkeit?

Durch die Unterstützung von Funktionsaufrufen kann das Modell mit externen APIs interagieren und seine Fähigkeiten erheblich erweitern, was die Integration in verschiedene Anwendungen erleichtert.

Wo finde ich weitere Informationen zu Mistral-7B-Instruct-v0.3?

Weitere Informationen findest du in der offiziellen Dokumentation von Mistral AI und den Repositories auf Hugging Face.

Teste den Chat mit Mistral

Llama lernt das Coden

alex — Sun, 26 Mar 2023 11:40:00 +0000

Einleitung

Code Llama ist eine Familie von hochmodernen, frei zugänglichen Versionen von Llama 2, die sich auf Code-Aufgaben spezialisiert haben. Wir freuen uns, die Integration in das Hugging Face-Ökosystem bekannt zu geben! Code Llama wurde unter der gleichen freizügigen Community-Lizenz wie Llama 2 veröffentlicht und ist auch für die kommerzielle Nutzung verfügbar.

Heute haben wir einige aufregende Neuigkeiten zu teilen:

Modelle auf dem Hub: Verfügbar mit ihren Modellkarten und Lizenzen.
Integration von Transformatoren: Für eine schnelle und effiziente produktionsbereite Inferenz.
Integration mit Textgenerierungsinferenz: Optimiert für schnelle Produktion.
Inferenzendpunkte: Bereit für den Einsatz in der Praxis.
Code-Benchmarks: Zur Leistungsbewertung der Modelle.

Inhaltsverzeichnis

Einleitung
Was ist Code Llama?
Wie benutzt man Code Llama?
Demo
Transformatoren
Code-Vervollständigung
Code-Füllung
Konversationsanweisungen
4-Bit-Laden
Verwenden von Textgenerierungsinferenz und Inferenzendpunkten
Auswertung
Zusätzliche Ressourcen

Was ist Code Llama?

Die Code-Llama-Version führt eine Modellfamilie mit 7, 13 und 34 Milliarden Parametern ein. Diese Basismodelle wurden von Llama 2 initialisiert und dann mit 500 Milliarden Token an Codedaten trainiert. Meta hat diese Basismodelle für zwei verschiedene Varianten optimiert: einen Python-Spezialisten (100 Milliarden zusätzliche Token) und eine fein abgestimmte Version mit Anweisungen, die Anweisungen in natürlicher Sprache verstehen kann.

Die Modelle zeigen herausragende Leistungen in mehreren Programmiersprachen wie Python, C++, Java, PHP, C#, TypeScript und Bash. Die Basis- und Instruct-Varianten 7B und 13B unterstützen das Infill auf der Grundlage des umgebenden Inhalts und eignen sich daher ideal für den Einsatz als Code-Assistenten. Code Llama wurde mit einem 16k-Kontextfenster trainiert und verfügt über eine zusätzliche Long-Context-Feinabstimmung, die es ermöglicht, ein Kontextfenster von bis zu 100.000 Token zu verwalten.

Wie benutzt man Code Llama?

Code Llama ist im Hugging Face Ökosystem verfügbar, beginnend mit Version 4.33. Bis Version 4.33 veröffentlicht wird, kannst du es vom main branch installieren:

!pip install git+https://github.com/huggingface/transformers.git@main

Demo

Du kannst das Code Llama Model (13 Milliarden Parameter!) in diesem Space oder im eingebetteten Playground ausprobieren:

from transformers import AutoTokenizer, pipeline
import torch

tokenizer = AutoTokenizer.from_pretrained("codellama/CodeLlama-7b-hf")
pipeline = transformers.pipeline(
    "text-generation", model="codellama/CodeLlama-7b-hf",
    torch_dtype=torch.float16, device_map="auto",
)

sequences = pipeline(
    'def fibonacci(', do_sample=True, temperature=0.2, top_p=0.9,
    num_return_sequences=1, eos_token_id=tokenizer.eos_token_id,
    max_length=100,
)

for seq in sequences:
    print(f"Result: {seq['generated_text']}")

Code-Vervollständigung

Die 7B und 13B Modelle können für Text-/Code-Vervollständigung oder Infilling verwendet werden. Hier ein Beispiel:

from transformers import AutoTokenizer, pipeline
import torch

tokenizer = AutoTokenizer.from_pretrained("codellama/CodeLlama-7b-hf")
pipeline = transformers.pipeline(
    "text-generation", model="codellama/CodeLlama-7b-hf",
    torch_dtype=torch.float16, device_map="auto",
)

sequences = pipeline(
    'def fibonacci(', do_sample=True, temperature=0.2, top_p=0.9,
    num_return_sequences=1, eos_token_id=tokenizer.eos_token_id,
    max_length=100,
)

for seq in sequences:
    print(f"Result: {seq['generated_text']}")

Code-Füllung

Dieses spezialisierte Feature ist besonders für Code-Modelle relevant. Es generiert den Code, der am besten zu einem gegebenen Präfix und Suffix passt. Hier ein Beispiel:

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

model_id = "codellama/CodeLlama-7b-hf"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id, torch_dtype=torch.float16).to("cuda")

prefix = 'def remove_non_ascii(s: str) -> str:\n """ '
suffix = "\n return result\n"
prompt = f"  {prefix} {suffix} "

inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
output = model.generate(inputs["input_ids"], max_new_tokens=200, do_sample=False)
output = output[0].to("cpu")
print(tokenizer.decode(output))



Konversationsanweisungen



Die Basis-Modelle können sowohl für Completion als auch für Infilling genutzt werden. Die Code Llama Veröffentlichung enthält auch ein fein abgestimmtes Instruktionsmodell, das in Konversationsschnittstellen verwendet werden kann. Hier ein Beispiel:



from transformers import AutoTokenizer, pipeline
import torch

tokenizer = AutoTokenizer.from_pretrained("codellama/CodeLlama-7b-hf")
pipeline = transformers.pipeline(
    "text-generation", model="codellama/CodeLlama-7b-hf",
    torch_dtype=torch.float16, device_map="auto",
)

user = 'In Bash, how do I list all text files in the current directory (excluding subdirectories) that have been modified in the last month?'
prompt = f"[INST] {user.strip()} [/INST]"

inputs = tokenizer(prompt, return_tensors="pt", add_special_tokens=False).to("cuda")




4-Bit-Laden



Die Integration von Code Llama in Transformers ermöglicht sofortigen Zugriff auf fortgeschrittene Features wie das 4-Bit-Laden. Damit kannst du die großen 32B-Parameter-Modelle auf Consumer-GPUs wie der Nvidia 3090 laufen lassen! Hier ein Beispiel:



from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig
import torch

model_id = "codellama/CodeLlama-34b-hf"
quantization_config = BitsAndBytesConfig(load_in_4bit=True, bnb_4bit_compute_dtype=torch.float16)
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id, quantization_config=quantization_config, device_map="auto")

prompt = 'def remove_non_ascii(s: str) -> str:\n """ '
inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
output = model.generate(inputs["input_ids"], max_new_tokens=200, do_sample=True, top_p=0.9, temperature=0.1)
output = output[0].to("cpu")
print(tokenizer.decode(output))



Verwenden von Textgenerierungsinferenz und Inferenzendpunkten



Text Generation Inference ist ein produktionsreifer Inferenz-Container, entwickelt von Hugging Face, der eine einfache Bereitstellung großer Sprachmodelle ermöglicht. Du kannst mehr darüber lernen, wie du LLMs mit Hugging Face Inference Endpoints bereitstellst, indem du deren Blog besuchst.



Auswertung



Sprachmodelle für Code werden typischerweise auf Datensätzen wie HumanEval bewertet. Dieser Ansatz ermöglicht eine ganzheitliche Bewertung, indem HumanEval in über ein Dutzend Sprachen übersetzt wird.



Hier eine Übersicht der Modelle und deren Bewertungen:



Modell Lizenz Datensatz Kommerzielle Nutzung Pretraining Länge [Tokens] Python JavaScript Durchschnittliche Bewertung
CodeLlaMa-34B Llama 2 Lizenz 2,500B 45.11 33.57 30.79



StarCoderBase-15B | BigCode-OpenRail-M |  |  | 1,000B | 30.35 | 31.72 | 22.4 |
| WizardCoder-15B | BigCode-OpenRail-M |  |  | 1,035B | 58.12 | 41.91 | 32.07 |
| OctoCoder-15B | BigCode-OpenRail-M |  |  | 1,000B | 45.33 | 32.82 | 24.01 |
| CodeGeeX-2-6B | CodeGeeX Lizenz |  |  | 2,000B | 33.49 | 29.92 | 21.23 |
| CodeGen-2.5-7B-Mono | Apache-2.0 |  |  | 14B | | | |



Zusätzliche Ressourcen




Hugging Face Blog



Llama 2 Paper



HumanEval Dataset




Hier sind einige häufig gestellte Fragen (FAQ) zum Thema Code Llama und dessen Anwendung:



FAQ



1. Was ist Code Llama?



Code Llama ist eine spezialisierte Version von Llama 2, die sich auf Code-Aufgaben konzentriert. Es bietet hochmoderne, frei zugängliche Modelle zur Code-Vervollständigung und anderen Coding-Aufgaben und ist im Hugging Face-Ökosystem integriert.



2. Welche Programmiersprachen werden von Code Llama unterstützt?



Code Llama unterstützt mehrere Programmiersprachen, darunter Python, C++, Java, PHP, C#, TypeScript und Bash.



3. Wie kann ich Code Llama nutzen?



Code Llama kann im Hugging Face Ökosystem genutzt werden. Installiere es über die Hauptversion der Transformers-Bibliothek und nutze es in deinen Projekten für Text- und Code-Vervollständigung sowie andere Inferenzaufgaben.



4. Was sind die Hauptvorteile von Code Llama?



Die Hauptvorteile von Code Llama sind die verbesserte Produktivität durch Code-Vervollständigung in IDEs, die Automatisierung sich wiederholender Aufgaben wie das Schreiben von Docstrings oder Unit-Tests, und die Unterstützung für große Kontextfenster bis zu 100.000 Token.



5. Welche Modellvarianten gibt es bei Code Llama?



Es gibt mehrere Varianten von Code Llama, darunter Basismodelle und fein abgestimmte Modelle mit 7, 13 und 34 Milliarden Parametern. Einige Modelle sind speziell für Python optimiert, während andere allgemeiner für verschiedene Programmiersprachen angepasst sind.



6. Wie unterscheidet sich Code Llama von anderen Code-LLMs?



Code Llama zeichnet sich durch seine hochmoderne Performance und seine Integration in das Hugging Face-Ökosystem aus, das eine einfache Nutzung und Implementierung ermöglicht. Zudem bietet es spezialisierte Funktionen wie das Infilling von Code und Unterstützung für lange Kontextfenster.