Run large language model on Raspberry Pi/Jetson? How effective is it?

¿Cómo ejecutar un modelo de lenguaje extenso en Raspberry Pi/Jetson? ¿Qué tan efectivo es?

Acerca de los modelos de lenguaje de gran tamaño de IA

Los modelos de lenguaje de gran tamaño (LLM) son modelos de redes neuronales a gran escala entrenados con técnicas de aprendizaje profundo, especialmente la arquitectura Transformer. Aprenden la estructura y regularidad del lenguaje mediante el procesamiento y análisis de grandes cantidades de datos de texto, generando, entendiendo y traduciendo así el lenguaje humano. Estos modelos suelen tener entre cientos de millones y cientos de miles de millones de parámetros, lo que les permite desempeñarse bien en una amplia gama de tareas de procesamiento del lenguaje natural (NLP), como la generación de lenguaje, la comprensión de diálogos, el resumen de textos, la traducción, etc.

En esta era de desarrollo tecnológico, los grandes modelos lingüísticos están cambiando nuestras vidas.

Ya sea que se trate de creación de contenidos o de investigación científica, los grandes modelos lingüísticos se utilizan en diversos campos.

Hoy vamos a mostrar cómo ejecutar diferentes modelos de lenguaje grandes en las placas de desarrollo Raspberry Pi y Jetson.

¿Qué tipo de resultados podemos obtener al ejecutar diferentes modelos de lenguaje grande de IA en diferentes placas de desarrollo integradas?

¿Cómo implementar modelos de lenguaje de IA de gran tamaño en Jetson o Raspberry Pi?

El vídeo de funcionamiento es el siguiente.

1. ¿Qué es Ollama?

La clave para implementar modelos de lenguaje grandes en controladores integrados como Raspberry Pi o Jetson es una poderosa herramienta de código abierto: Ollama.

Sitio web oficial: https://ollama.com/

GitHub: https://github.com/ollama/ollama

Ollama está diseñado para simplificar el proceso de implementación de modelos de lenguaje de gran tamaño, eliminando la tediosa tarea de configurar desde cero. Con solo unas pocas líneas de comandos, puede implementar y ejecutar el modelo fácilmente.

Después de muchas pruebas, muchos modelos de lenguaje grandes pueden funcionar bien y ejecutarse sin problemas con el soporte de Ollama.

2. Entorno de implementación

Necesita preparar una placa de desarrollo (RAM: 4 GB o más), una tarjeta SD (TF) (16 G o más).

Raspberry Pi 5B (8G RAM): ejecuta modelos con parámetros 8B o inferiores. Raspberry Pi 5B (4G RAM): ejecuta modelos con parámetros 3B o inferiores.

Nombre del modelo	Escala de parámetros	Memoria modelo
Llama 3.1	8B	4,7 GB
Llama 3.1	70B	40 GB
Llama 3.1	405B	231 GB
Phi3 Mini	3.8B	2,3 GB
Phi 3 Medio	14B	7,9 GB
Gemma 2	2B	1,6 GB
Gemma 2	9B	5,5 GB
Gemma 2	27B	16 GB
Mistral	7B	4,1 GB
Sueño lunar 2	1.4B	829 MB
Chat neuronal	7B	4,1 GB
Estornino	7B	4,1 GB
Código Llama	7B	3,8 GB
Llama 2 sin censura	7B	3,8 GB
LLaVA	7B	4,5 GB
Solar	10.7B	6,1 GB

Además, también necesitamos preparar un medio de almacenamiento en disco del sistema de más de 16 GB para descargar más modelos.

3.Instalación de Ollama

El primer paso es encender la computadora, abrir la terminal Raspberry Pi o Jetson e ingresar el siguiente comando:

curl -fsSL https://ollama.com/install.sh | sh

Cuando el sistema muestra el contenido que se muestra arriba, significa que la instalación es exitosa.

Si está utilizando la implementación de Raspberry Pi, aparecerá una advertencia que indica que no se detecta ninguna GPU NVIDIA/AMD y Ollama se ejecutará en modo CPU. Podemos ignorar esta advertencia y continuar con el siguiente paso.

Si utiliza un dispositivo como Jetson, no aparece ninguna advertencia. El uso de NVIDIA puede tener una ventaja en la GPU y permitir una experiencia más fluida.

4.Uso de Ollama

Ingrese el comando olama en la terminal y verá el mensaje que se muestra a continuación:

Llama

Dominio	Función
ollama servir	Poner en marcha olama
olama crea	Creación de un modelo a partir de un archivo de modelo
espectáculo de olamas	Mostrar información del modelo
Ollama corre	Ejecutar modelo
tira de llama	Extraer modelos del registro
Ollama empuja	Introduciendo el modelo en el registro
lista de olamas	Lista de modelos
ollama ps	Lista de modelos ejecutados
Llama CP	Copiar modelo
Olla rm	Eliminar modelo
Ollama ayuda	Obtenga información de ayuda sobre cualquier comando

Todas estas son instrucciones relacionadas con el funcionamiento del modelo. Más adelante, podemos ingresar instrucciones en la terminal para extraer el modelo del registro.

Ingrese el comando ollama run phi13:3.8b para descargar el modelo.

Cuando aparece el siguiente mensaje significa que el modelo se ha descargado y podemos interactuar con el texto.

Ejecute el modelo de lenguaje grande de IA en la placa de desarrollo Jetson.

Esta vez, utilizamos las versiones de 16 GB y 8 GB de Jetson Orin NX como plataforma de prueba. Con su GPU integrada, Jetson Orin NX muestra un excelente rendimiento en el procesamiento de conjuntos de datos a gran escala y algoritmos complejos, y puede responder a la mayoría de las solicitudes de modelos en 2 segundos, superando ampliamente a otros dispositivos de borde.

En la prueba, el modelo con una escala de 7 mil millones de parámetros obtuvo el mejor rendimiento en Jetson Orin NX. Aunque la velocidad de procesamiento es ligeramente más lenta que la del modelo más pequeño, la precisión de respuesta es mayor. Además, LLaVA también muestra un buen rendimiento en el procesamiento de contenido multimodal de imágenes y textos.

El vídeo de prueba es el siguiente:

Condiciones específicas y resultados de varios modelos con buenos efectos de carrera.

1.WizardLM2 [Microsoft [modelo de lenguaje de gran tamaño de inteligencia artificial]

Cantidad de parámetros: 7B

Longitud del contexto: 128K

Velocidad de procesamiento 16G: 13,1 token/s

Velocidad de procesamiento 8G: 6,4 tokens/s

Calificación de la experiencia del usuario: ★★★★

Ventajas: Velocidad de respuesta más rápida

Desventajas: precisión de respuesta media

2.Phi-3 [Microsoft [modelo de lenguaje pequeño]

Cantidad de parámetros: 3,8 B

Longitud del contexto: 128K

Velocidad de procesamiento 16G: 18,5 tokens/s

Velocidad de procesamiento 8G: 17,5 tokens/s

Calificación de la experiencia del usuario: ★★★★

Ventajas: mayor precisión de respuesta, contenido más rico

Desventajas: velocidad de respuesta más lenta

3.LlaVA [Serie de modelos de lenguaje de código abierto de Meta AI]

Cantidad de parámetros de la versión utilizada: 8B

Longitud del contexto: 8K

Velocidad de procesamiento 16G: 13,5 tokens/s

Velocidad de procesamiento 8G: 3,7 token/s

Calificación de la experiencia del usuario: ★★★★

Ventajas: Mejor precisión de respuesta, puede responder con imágenes.

Desventajas: Mala capacidad de conversación en chino.

4.Gemma [Modelo de lenguaje abierto y ligero desarrollado por Google]

Parámetros: 7B

Duración del contexto: 4K

Velocidad de procesamiento 16G: 10,2 tokens/s

Velocidad de procesamiento 8G: 4,2 token/s

Calificación de la experiencia del usuario: ★★★★

Ventajas: Mayor precisión en las respuestas, mejor experiencia de usuario.

5.LLaVA [Modelo multimodal grande que integra tecnología de reconocimiento visual y modelo de lenguaje]

Parámetros: 7B

Duración del contexto: 4K

Velocidad de procesamiento 16G: 13,5 tokens/s

Velocidad de procesamiento 8G: 3,7 token/s

Calificación de la experiencia del usuario: ★★★★

Ventajas: Mejor precisión de respuesta, puede responder con imágenes.

Desventajas: velocidad de respuesta media

6. Qwen2 [modelo de lenguaje de gran tamaño de código abierto creado por el equipo de Alibaba Cloud]

Parámetros: 7B

Longitud del contexto: 128K

Velocidad de procesamiento 16G: 10,2 tokens/s

Velocidad de procesamiento 8G: 4,2 token/s

Calificación de la experiencia del usuario: ★★★★★

Ventajas: Buena experiencia en contexto chino, mejor precisión en las respuestas.

Ejecución del modelo de lenguaje grande de IA en la placa de desarrollo Raspberry Pi.

Esta prueba utiliza la versión Raspberry Pi 5-8G como plataforma de prueba.

Con la versión Raspberry Pi de 5 a 4 GB, muchos modelos no pueden ejecutarse en esta placa base debido a la poca memoria. Por eso, seleccionamos algunos modelos de lenguajes grandes con mejores efectos de ejecución y los resultados de las pruebas son los siguientes.

1.WizardLM2 [modelo de lenguaje grande de Microsoft para inteligencia artificial]

Volumen del parámetro: 7B

Longitud del contexto: 128K

Velocidad de respuesta: 30 segundos

Calificación de la experiencia del usuario: ★★★

Ventajas: contenido correcto e inteligente

Desventajas: velocidad de respuesta más lenta

2.Phi-3 [modelo de lenguaje pequeño de Microsoft]

Volumen del parámetro: 3,8 B

Duración del contexto: 4K

Velocidad de respuesta: 5 segundos

Calificación de la experiencia del usuario: ★★★

Ventajas: Respuesta más rápida

Desventajas: Mala precisión, a veces respuestas aleatorias.

3. Llama [Serie de modelos de lenguaje de código abierto de Meta AI]

Parámetro de versión usado volumen: 8B

Longitud del contexto: 8K

Velocidad de respuesta: 10 segundos

Calificación de la experiencia del usuario: ★★★★

Ventajas: Buen rendimiento

Desventajas: Mala capacidad de conversación en chino.

4.Gemma [Modelo de lenguaje abierto y ligero desarrollado por Google]

Parámetros: 2B

Longitud del contexto: 1K

Velocidad de respuesta: 6-7 segundos

Calificación de la experiencia del usuario: ★★★★

Ventajas: respuestas concisas y buena experiencia de usuario.

Desventajas: la velocidad y la precisión dependen del tamaño del modelo.

5.Gemma [Modelo de lenguaje abierto y ligero desarrollado por Google]

Parámetros: 7B

Duración del contexto: 4K

Velocidad de respuesta: 20 segundos

Calificación de la experiencia del usuario: ★★★★

Ventajas: respuestas concisas, buena experiencia de usuario.

Desventajas: la velocidad y la precisión dependen del tamaño del modelo.

6.LLaVA [Modelo multimodal grande que integra tecnología de reconocimiento visual y modelo de lenguaje]

Parámetros: 7.24B

Longitud del contexto: 2K

Velocidad de respuesta: 10 segundos

Calificación de la experiencia del usuario: ★★★★★

Ventajas: puede procesar información de imágenes y texto, mejor precisión.

7.Qwen2 [modelo de lenguaje de gran tamaño de código abierto creado por el equipo de Alibaba Cloud]

Parámetros: 7B

Longitud del contexto: 128K

Velocidad de respuesta: 10 segundos

Calificación de la experiencia del usuario: ★★★★★

Ventajas: admite múltiples funciones avanzadas, buena experiencia de contexto chino.

Según los resultados de las pruebas, sabemos que

WizardLM2 responde con precisión pero lentamente;

Phi-3 responde rápidamente debido a su modelo de menor tamaño, pero con menor precisión;

Llama es ligeramente insuficiente para manejar conversaciones en chino;

Gemma ofrece un buen equilibrio entre velocidad y precisión;

LLaVA ha ganado elogios por sus capacidades de procesamiento multimodal;

Qwen2 funciona mejor en el contexto chino.

Después de nuestras pruebas reales, los modelos de lenguaje grandes pueden ejecutarse en dispositivos de computación de borde con un rendimiento limitado, especialmente en escenarios con requisitos de protección de la red o de la privacidad limitados. Sin embargo, el uso de modelos de lenguaje grandes sin conexión no es tan fluido como las conversaciones en la nube. En segundo lugar, el efecto de ejecución del modelo de 7 mil millones es mucho más lento que el de los modelos de 3.8 mil millones y 2 mil millones, pero la precisión de respuesta es mejor que la de estos.

Sin embargo, a medida que pase el tiempo, los escenarios de aplicación de los modelos de lenguaje de gran tamaño definitivamente se volverán cada vez más maduros, e incluso los modelos de gran tamaño multimodales que combinan visión y audio serán cada vez más comunes. Veremos más soluciones de borde implementadas en dispositivos de borde como Raspberry Pi/Jetson.

24 de julio de 2024

【Unboxing y revisión】---Brazo robótico colaborativo visual de 7 ejes JetCobot

10 de septiembre de 2024

【Unboxing y revisión】---Coche robot Raspbot V2 AI Vision

Idioma

Deja un comentario