Logo Spiria

7 étonnantes applications de l’apprentissage profond

16 août 2018.

L’apprentissage profond inspire l’imagination et la créativité des programmeurs, notamment dans les domaines du traitement des images et du son. Voici sept applications particulièrement intéressantes, dont certaines marquent l’histoire de l’intelligence artificielle.

Estimer la posture humaine en temps réel

Présenté en 2016, cet outil à base de réseau neuronal convolutif permet de situer un être humain sur une vidéo et de détecter sa posture en temps réel. Depuis, l’équipe de chercheurs de l’université Carnegie-Mellon a publié une librairie dénommée OpenPose qu’elle ne cesse d’améliorer, ajoutant à la détection du corps l’analyse de la pose des mains et des expressions faciales avec en tout 135 points clés. Avec plusieurs prises de vues de la même scène, il est possible de construire des modèles 3D. Cette technologie trouvera sans doute son chemin dans le domaine de la capture de mouvement au service du cinéma.

GitHub, “Realtime Multi-Person Pose Estimation.”

GitHub, “OpenPose.”

 

Poser des diagnostics médicaux

À Londres, des chercheurs de DeepMind et des médecins de l’hôpital des yeux Moorfields ont collaboré pour créer un outil d’intelligence artificielle capable de diagnostiquer avec précision 50 maladies à partir de numérisations 3D de l’intérieur du globe oculaire (obtenues par tomographie optique cohérente). Le logiciel a été formé avec près de 15 000 numérisations de 7 500 patients de l’hôpital ophtalmologique, accompagnées des diagnostics posés par les médecins. Dans 94 % des cas, le programme est arrivé au même résultat que le clinicien humain et ce ne sont là que des résultats préliminaires. Les chercheurs espèrent que l’outil pourra dans un avenir proche aider les médecins en traitant rapidement les scans et décelant les patients qui nécessitent un traitement urgent.

DeepMind, “A major milestone for the treatment of eye disease.”

 

Être champion de Breakout

Avant de battre les champions de jeu de go avec AlphaGo, le premier succès de DeepMind a été de développer un programme utilisant la technique de l’apprentissage profond par renforcement (“Deep reinforcement learning”) capable de devenir par lui-même un champion surhumain du jeu vidéo Breakout de la console Atari 2600. On n’avait donné au programme aucune explication sur le fonctionnement du jeu, mais simplement l’objectif de faire le meilleur score. C’est à tâtons qu’il a découvert comment marquer des points et en deux heures, il était déjà un expert. Son autoapprentissage lui a permis de découvrir la stratégie gagnante.

The New-Yorker, “Artificial Intelligence Goes to the Arcade.”

 

Composer comme Chopin

Francesco Marchesani de l’université Polytechnique de Turin s’est amusé à nourrir un réseau de neurones récurrents avec des fichiers MIDI d’œuvres pour piano de Frédéric Chopin. Les résultats ne sont sans doute pas de l’ordre du chef d’œuvre, mais ça sonne définitivement comme du Chopin. Aujourd’hui, les recherches en musique conçue par intelligence artificielle vont plus loin, il ne s’agit plus de calquer un style de manière statistique, mais de produire des compositions vraiment originales.

The New-Yorker, “Neural Nets for Generating Music.”

 

Lire sur les lèvres

Une équipe de recherche du département d’informatique de l’université d’Oxford a mis au point un système de lecture sur les lèvres qui surpasse de loin les performances des humains spécialistes de la technique et des systèmes de lecture labiale déjà existants. Le programme a encore ses limites : il faut par exemple que la personne soit de face et bien éclairée. Mais l’équipe souhaite améliorer l’outil, en particulier en tant qu’aide pour les personnes malentendantes.

University of Oxford, Department of Computer Science, “LipNet AI takes lip reading into the future.”

 

Coloriser des photos et vidéos

Basé sur les réseaux neuronaux convolutionnels, le programme développé par des chercheurs de l’université Waseda à Tokyo peut coloriser des images de n’importe quelle résolution, contrairement à la plupart des approches existantes basées sur des ConvNets, et ses résultats sont très convaincants. Il fonctionne aussi bien sur des photos en noir et blanc modernes que des photos vieilles de plus d’un siècle.

⇨ Satoshi Iizuka, Edgar Simo-Serra, Hiroshi Ishikawa, “Let there be Color!.”

Voir aussi :

⇨ Gustav Larsson, Michael Maire, Gregory Shakhnarovich, “Learning Representations for Automatic Colorization.”

 

Faire dire n’importe quoi

Des chercheurs de l’université de Washington ont créé un programme qui prend un fichier audio, le convertit en mouvements de la bouche, puis colle ces mouvements sur une vidéo existante. Le résultat final est une vidéo de quelqu’un qui dit autre chose que ce qu’il a réellement dit. L’exemple avec le président Barack Obama est stupéfiant et même, un peu inquiétant. Il y aura bien un jour des producteurs de “fake news” qui réussiront à combiner un outil capable de synthétiser la voie de n’importe qui avec un outil de manipulation des vidéos… On imagine les effets potentiels. Les chercheurs ont expliqué qu’ils ont utilisé Obama parce que les vidéos HD de l’ancien président sont disponibles en abondance, ce qui facilite la formation du réseau neuronal.

⇨ Supasorn Suwajanakorn, Steven M. Seitz, Ira Kemelmacher-Shlizerman, “Synthesizing Obama : Learning Lip Sync from Audio.”