Exécuter un modèle de langage volumineux sur Raspberry Pi/Jetson ? Que

Run large language model on Raspberry Pi/Jetson? How effective is it?

0 commentaire

À propos des grands modèles linguistiques de l'IA

Les modèles de langage de grande taille (LLM) sont des modèles de réseaux neuronaux à grande échelle formés à partir de techniques d'apprentissage profond, notamment l'architecture Transformer. Ils apprennent la structure et la régularité du langage en traitant et en analysant de grandes quantités de données textuelles, générant, comprenant et traduisant ainsi le langage humain. Ces modèles comportent généralement des centaines de millions à des centaines de milliards de paramètres, ce qui leur permet de bien fonctionner dans un large éventail de tâches de traitement du langage naturel (NLP), telles que la génération de langage, la compréhension de dialogue, la synthèse de texte, la traduction, etc.

À l’ère du développement technologique, les grands modèles linguistiques changent nos vies.

Qu'il s'agisse de création de contenu ou de recherche scientifique, de grands modèles linguistiques sont utilisés dans divers domaines.

Aujourd'hui, nous allons montrer comment exécuter différents modèles de langage de grande taille sur les cartes de développement Raspberry Pi et Jetson.

Quels types de résultats pouvons-nous obtenir en exécutant différents modèles de langage d’IA volumineux sur différentes cartes de développement embarquées ?

Comment déployer des modèles de langage IA de grande taille sur Jetson ou Raspberry Pi ?

La vidéo de l'opération est la suivante.

1. Qu'est-ce qu'Ollama ?

La clé pour déployer de grands modèles de langage sur des contrôleurs embarqués tels que Raspberry Pi ou Jetson est un puissant outil open source : Ollama.

Site officiel : https://ollama.com/

GitHub : https://github.com/ollama/ollama

Ollama est conçu pour simplifier le processus de déploiement de modèles de langage volumineux, en éliminant la fastidieuse configuration à partir de zéro. Avec seulement quelques lignes de commandes, vous pouvez facilement déployer et exécuter le modèle.

Après de nombreux tests, de nombreux grands modèles de langage peuvent fonctionner correctement et sans problème avec le support d'Ollama.

2. Environnement de déploiement

Vous devez préparer une carte de développement (RAM : 4 Go ou plus), une carte SD (TF) (16 Go ou plus).

Raspberry Pi 5B (8 Go de RAM) : Exécutez les modèles de paramètres 8B et moins. Raspberry Pi 5B (4 Go de RAM) : Exécutez les modèles de paramètres 3B et moins.

Nom du modèle	Échelle des paramètres	Mémoire modèle
Lama 3.1	8B	4,7 Go
Lama 3.1	70B	40 Go
Lama 3.1	405B	231 Go
Phi 3 Mini	3,8 milliards	2,3 Go
Phi 3 Moyen	14B	7,9 Go
Gemma 2	2B	1,6 Go
Gemma 2	9B	5,5 Go
Gemma 2	27B	16 GB
Mistral	7B	4,1 Go
Rêve de lune 2	1,4 milliard	829 Mo
Chat neuronal	7B	4,1 Go
Étourneau	7B	4,1 Go
Code Lama	7B	3,8 Go
Lama 2 sans censure	7B	3,8 Go
LLaVA	7B	4,5 Go
Solaire	10,7 milliards	6,1 Go

De plus, nous devons également préparer un support de stockage sur disque système de plus de 16 Go pour télécharger davantage de modèles.

3.Installation d'Ollama

La première étape consiste à allumer l’ordinateur, à ouvrir le terminal Raspberry Pi ou Jetson et à saisir la commande suivante :

curl -fsSL https://ollama.com/install.sh | sh

Lorsque le système affiche le contenu ci-dessus, cela signifie que l'installation est réussie.

Si vous utilisez le déploiement Raspberry Pi, un avertissement s'affichera indiquant qu'aucun GPU NVIDIA/AMD n'est détecté et qu'Ollama fonctionnera en mode CPU. Nous pouvons ignorer cet avertissement et passer à l'étape suivante.

Si vous utilisez un appareil tel que Jetson, il n'y a pas d'avertissement de ce type. L'utilisation de NVIDIA peut vous permettre d'obtenir un bonus GPU et une expérience plus fluide.

4. Utilisation d'Ollama

Entrez la commande ollama dans le terminal et vous verrez l'invite comme indiqué ci-dessous :

ollama

Commande	Fonction
ollama servir	Démarrez Ollama
ollama créer	Créer un modèle à partir d'un fichier modèle
spectacle d'ollama	Afficher les informations sur le modèle
course d'ollama	Exécuter le modèle
tirer ollama	Extraction de modèles à partir du registre
Poussée d'ollama	Envoi du modèle au registre
liste d'ollama	Liste des modèles
ollama ps	Les modèles de liste s'exécutent
ollama cp	Copier le modèle
ollama rm	Supprimer le modèle
aide ollama	Obtenez des informations d'aide sur n'importe quelle commande

Ce sont toutes des instructions liées au fonctionnement du modèle. Plus tard, nous pouvons saisir des instructions dans le terminal pour extraire le modèle du registre.

Entrez la commande ollama run phi13:3.8b pour télécharger le modèle.

Lorsque l'invite suivante apparaît, cela signifie que le modèle a été téléchargé et que nous pouvons interagir avec le texte.

Exécutez le grand modèle de langage de l’IA sur la carte de développement Jetson.

Cette fois, nous utilisons les versions Jetson Orin NX 16 Go et 8 Go comme plate-forme de test. Avec son GPU intégré, Jetson Orin NX affiche d'excellentes performances dans le traitement d'ensembles de données à grande échelle et d'algorithmes complexes, et peut répondre à la plupart des demandes de modèles en 2 secondes, dépassant de loin les autres appareils de pointe.

Lors du test, le modèle avec une échelle de 7 milliards de paramètres a obtenu les meilleurs résultats sur Jetson Orin NX. Bien que la vitesse de traitement soit légèrement plus lente que celle du modèle plus petit, la précision de la réponse est plus élevée. De plus, LLaVA affiche également de bonnes performances dans le traitement de contenus multimodaux d'images et de textes.

La vidéo de test est la suivante :

Conditions spécifiques et résultats de plusieurs modèles avec de bons effets de fonctionnement.

1.WizardLM2 [Microsoft [modèle de langage à grande échelle de l'intelligence artificielle]

Montant du paramètre : 7B

Longueur du contexte : 128 Ko

Vitesse de traitement 16G : 13,1 token/s

Vitesse de traitement 8G : 6,4 tokens/s

Évaluation de l'expérience utilisateur : ★★★★

Avantages : Vitesse de réponse plus rapide

Inconvénients : précision de réponse moyenne

2.Phi-3 [Microsoft [petit modèle de langage]

Montant du paramètre : 3,8 B

Longueur du contexte : 128 Ko

Vitesse de traitement 16G : 18,5 tokens/s

Vitesse de traitement 8G : 17,5 tokens/s

Évaluation de l'expérience utilisateur : ★★★★

Avantages : précision de réponse plus élevée, contenu plus riche

Inconvénients : vitesse de réponse plus lente

3.LlaVA [Série de modèles de langage open source Meta AI à grande échelle]

Montant du paramètre de version utilisé : 8 B

Longueur du contexte : 8K

Vitesse de traitement 16G : 13,5 tokens/s

Vitesse de traitement 8G : 3,7 tokens/s

Évaluation de l'expérience utilisateur : ★★★★

Avantages : Meilleure précision de réponse, possibilité de répondre avec des images

Inconvénients : Mauvaise capacité de conversation en chinois

4.Gemma [Modèle de langage ouvert léger développé par Google]

Paramètres: 7B

Durée du contexte : 4K

Vitesse de traitement 16G : 10,2 tokens/s

Vitesse de traitement 8G : 4,2 tokens/s

Évaluation de l'expérience utilisateur : ★★★★

Avantages : Meilleure précision des réponses, meilleure expérience utilisateur

5.LLaVA [Grand modèle multimodal, intégrant la technologie de reconnaissance visuelle et le modèle linguistique]

Paramètres: 7B

Durée du contexte : 4K

Vitesse de traitement 16G : 13,5 tokens/s

Vitesse de traitement 8G : 3,7 tokens/s

Évaluation de l'expérience utilisateur : ★★★★

Avantages : Meilleure précision de réponse, possibilité de répondre avec des images

Inconvénients : vitesse de réponse moyenne

6.Qwen2 [Grand modèle de langage open source par l'équipe Alibaba Cloud]

Paramètres: 7B

Longueur du contexte : 128 Ko

Vitesse de traitement 16G : 10,2 tokens/s

Vitesse de traitement 8G : 4,2 tokens/s

Évaluation de l'expérience utilisateur : ★★★★★

Avantages : Bonne expérience du contexte chinois, meilleure précision des réponses

Exécution d'un modèle de langage AI volumineux sur la carte de développement Raspberry Pi.

Ce test utilise la version Raspberry Pi 5-8G comme plate-forme de test.

En utilisant la version Raspberry Pi 5-4 Go, de nombreux modèles ne peuvent pas fonctionner sur cette carte mère en raison de la petite mémoire. Nous avons donc sélectionné quelques modèles de langage volumineux avec de meilleurs effets de fonctionnement, et les résultats des tests sont les suivants.

1.WizardLM2 [Modèle de langage étendu de Microsoft pour l'intelligence artificielle]

Volume paramétrique : 7B

Longueur du contexte : 128 Ko

Temps de réponse : 30 secondes

Évaluation de l'expérience utilisateur : ★★★

Avantages : contenu correct et intelligent

Inconvénients : vitesse de réponse plus lente

2.Phi-3 [Petit modèle de langage Microsoft]

Volume paramétrique : 3,8B

Durée du contexte : 4K

Temps de réponse : 5 secondes

Évaluation de l'expérience utilisateur : ★★★

Avantages : Réponse plus rapide

Inconvénients : Mauvaise précision, réponses parfois aléatoires

3.Llama [Série de modèles de langage open source Meta AI à grande échelle]

Volume des paramètres de la version utilisée : 8B

Longueur du contexte : 8K

Temps de réponse : 10 secondes

Évaluation de l'expérience utilisateur : ★★★★

Avantages : Bonnes performances

Inconvénients : Mauvaise capacité de conversation en chinois

4.Gemma [Modèle de langage ouvert léger développé par Google]

Paramètres : 2B

Longueur du contexte : 1K

Vitesse de réponse : 6-7 secondes

Évaluation de l'expérience utilisateur : ★★★★

Avantages : réponses concises et bonne expérience utilisateur.

Inconvénients : la vitesse et la précision dépendent de la taille du modèle.

5.Gemma [Modèle de langage ouvert léger développé par Google]

Paramètres: 7B

Durée du contexte : 4K

Temps de réponse : 20 secondes

Évaluation de l'expérience utilisateur : ★★★★

Avantages : réponses concises, bonne expérience utilisateur

Inconvénients : la vitesse et la précision dépendent de la taille du modèle

6.LLaVA [Grand modèle multimodal, intégrant la technologie de reconnaissance visuelle et le modèle linguistique]

Paramètres : 7.24B

Longueur du contexte : 2K

Temps de réponse : 10 secondes

Évaluation de l'expérience utilisateur : ★★★★★

Avantages : peut traiter les informations d'image et de texte, meilleure précision

7.Qwen2 [Grand modèle de langage open source par l'équipe Alibaba Cloud]

Paramètres: 7B

Longueur du contexte : 128 Ko

Temps de réponse : 10 secondes

Évaluation de l'expérience utilisateur : ★★★★★

Avantages : prend en charge plusieurs fonctions avancées, bonne expérience du contexte chinois

D'après les résultats des tests, nous savons que

WizardLM2 répond avec précision mais lentement ;

Le Phi-3 réagit rapidement en raison de sa taille de modèle plus petite, mais avec une précision moindre ;

Llama est légèrement insuffisant pour gérer les conversations en chinois ;

Gemma offre un bon équilibre entre vitesse et précision ;

LLaVA a été salué pour ses capacités de traitement multimodal ;

Qwen2 fonctionne mieux dans le contexte chinois.

Après nos tests réels, de grands modèles linguistiques peuvent effectivement fonctionner sur des appareils informatiques de pointe avec des performances limitées, en particulier dans des scénarios avec des exigences limitées en matière de réseau ou de protection de la vie privée. Cependant, l'utilisation de grands modèles linguistiques hors ligne n'est pas aussi fluide que les conversations dans le cloud. Deuxièmement, l'effet d'exécution du modèle de 7 milliards est beaucoup plus lent que celui des modèles de 3,8 milliards et de 2 milliards, mais la précision de la réponse est meilleure qu'eux.

Cependant, au fil du temps, les scénarios d'application des grands modèles linguistiques deviendront certainement de plus en plus matures, et même les grands modèles multimodaux combinant vision et audio deviendront de plus en plus nombreux. Nous verrons de plus en plus de solutions de pointe déployées sur des appareils de pointe tels que Raspberry Pi/Jetson.

Article précédent Article suivant

Récupération du mot de passe

Création de compte

Exécuter un modèle de langage volumineux sur Raspberry Pi/Jetson ? Quelle est son efficacité ?

Join Us

Subscribe to our newsletter