Logo Spiria

Un nouveau modèle de langage par Meta/Facebook

24 février 2023.

LLaMA.

© iStock.

Meta a annoncé LLaMA-13B, un nouveau grand modèle de langage (LLM) alimenté par l’IA qui, selon l’entreprise, peut surpasser le modèle GPT-3 d’OpenAI bien qu’il soit “10x plus petit”. Des modèles d’IA de plus petite taille pourraient permettre d’exécuter localement des assistants de type ChatGPT sur des appareils tels que les PC et les téléphones intelligents. LLaMA-13B fait partie d’une nouvelle famille de modèles de langage appelée “Large Language Model Meta AI”, ou LLaMA en abrégé. Meta a formé ses modèles LLaMA à l’aide d’ensembles de données accessibles au public (Common Crawl, Wikipedia, C4, etc.), ce qui les rend compatibles avec l’open-sourcing. L’entreprise souhaite que ces modèles fondamentaux forment la base technologique de futurs modèles d’IA plus raffinés, de la même manière qu’OpenAI a construit ChatGPT à partir d’une fondation GPT-3. Une version simplifiée de LLaMA est disponible sur GitHub.

LLaMA ouvre la voie à des performances similaires à celles de ChatGPT sur du matériel grand public dans un avenir proche. Le nombre de paramètres d’un modèle de langage est un facteur clé de ses performances, les modèles plus grands étant généralement capables de traiter des tâches plus complexes et de produire des résultats plus cohérents. Cependant, un plus grand nombre de paramètres prend plus de place et nécessite plus de ressources de calcul pour fonctionner. La taille des modèles de langage de la collection LLaMA varie de 7 à 65 milliards de paramètres. En comparaison, le modèle GPT-3 d’OpenAI — le modèle de base de ChatGPT — compte 175 milliards de paramètres. Meta n’a pas annoncé de plans pour une version plus large du modèle pour le moment.

Ars Technica, Benj Edwards, “Meta unveils a new large language model that can run on a single GPU.”

2023-02-24