Les algorithmes de compression concurrencés par l’IA ?
Chinchilla. © iStock.
Dans un document de recherche arXiv intitulé Language Modeling Is Compression, des chercheurs ont utilisé Chinchilla 70B, un grand modèle de langage (LLM) de DeepMind, pour effectuer des compressions sans perte sur des images issues de la base de données ImageNet. Ils ont obtenu une compression à 43,4 % de leur taille d’origine, battant l’algorithme PNG qui a compressé les mêmes données à 58,5 %. Pour l’audio, Chinchilla a compressé les échantillons de l’ensemble de données audio LibriSpeech à seulement 16,4 % de leur taille brute, surpassant largement la compression FLAC à 30,3 %. Ces résultats suggèrent que même si Chinchilla 70B a été principalement formé pour traiter du texte, il est également étonnamment efficace pour compresser d’autres types de données, souvent meilleur que les algorithmes spécifiquement conçus pour ces tâches. Cela ouvre la porte à de nouvelles applications originales pour les grands modèles de langage.
Cela étant dit, un LLM est bien plus exigeant matériellement que des algorithmes de compression sans perte comme FLAC ou PNG qui ont été conçus pour être très légers, économes en mémoire et en énergie, tout en étant rapides. Bref, Chinchilla avec ses 70 milliards de paramètres n’est pas près de remplacer nos vaillants algorithmes pour bon nombre d’applications courantes.
⇨ Ars Technica, Benj Edwards, “AI language models can exceed PNG and FLAC in lossless compression, says study.”
2023-09-28