Différencier un vélo d’un tyrannosaure dans un film
Lors de la récente conférence Cloud Next qui a eu lieu à San Francisco, Google a dévoilé un nouvel outil qui sera sans doute fort utile pour les entreprises produisant un volume important de vidéos. Le géant a en effet présenté une API d’analyse de contenu vidéo, utilisable sur les fichiers stockés dans le Google Cloud Storage. Elle permet d’associer automatiquement une taxonomie riche à une vidéo, ce qui rend ainsi le contenu de la vidéo accessible aux moteurs de recherche conventionnels.
Plusieurs outils de reconnaissance d’images existent à l’heure actuelle : on n’a qu’à penser à la reconnaissance des visages, proposée dans différentes applications de gestion de photothèque par exemple. Mais la particularité de l’outil de Google est d’offrir l’analyse automatique de n’importe quelle vidéo numérique. Jusqu’a récemment, les vidéos étaient entièrement tributaires des métadonnées associées à la main par des humains pour être trouvables. Qui n’a jamais pesté pour trouver une vidéo mal indexée sur YouTube, par exemple, parce que les mots-clés nécessaires n’étaient pas présents et qu’un fichier vidéo n’est qu’une grosse masse indéchiffrable d’octets pour un outil de recherche par essence textuel… La reconnaissance de la piste audio est déjà un progrès dans la voie de la compréhension d’une vidéo par les machines, celle des images animées est l’étape ultime.
Comment ça fonctionne
L’outil, appelé pour l’instant Cloud Video Intelligence, est pour le moment disponible en mode “bêta privée” et bien sûr, réservé aux clients de la plateforme infonuagique de Google.
L’API a pour but d’identifier des lieux et des objets précis, ou encore des êtres humains ou des animaux à partir de n’importe quel contenu vidéo. Une fois l’identification faite, un catalogage des contenus peut s’effectuer grâce aux mots-clés proposés par l’API, chaque mot-clé étant associé à un degré de certitude.
Si l’API est relativement certaine qu’il s’agit bien : primo, d’un animal, secundo, d’un tigre, et que, tertio, ce tigre est probablement du Bengale ; elle notera en pourcentage le degré de précision pour chaque déduction. Et comme l’analyse repose sur l’engin d’apprentissage automatique de Google, la précision deviendra de plus en plus importante au fur et à mesure que le logiciel sera exposé à davantage de contenu.
Si l’API excelle à identifier les bicyclettes, même aux couleurs de Google, elle a manifestement plus de mal avec Stan, le T. Rex du campus de Mountain View…
Les premiers essais ne donnent pas des résultats particulièrement précis pour l’instant, mais tout cela fait partie de la stratégie de Google, qui préfère toujours prendre la place le plus rapidement possible. Le mantra interne du géant de Mountain View est en effet “Launch and Iterate”, lancer un produit en l’état, l’améliorer par itérations. Une stratégie que l’on pourrait décrire comme suit si nous étions railleurs : lancez votre application au grand jour, même truffée de bogues et aux fonctionnalités incomplètes, laissez vos clients faire le travail de découverte de ces bogues, s’excuser platement en cas de plaintes, réparer, publier une nouvelle version, puis, recommencez, encore et encore.
De nombreuses applications possibles
On peut facilement imaginer que des médias qui sont souvent aux prises avec d’importantes archives d’images animées, pourront enfin cataloguer leurs contenus automatiquement, avec plus d’efficacité, de précision et de manière bien plus économique. Un exemple parmi tant d’autres : si une équipe de production documentaire cherche des extraits contenant une voiture Ford modèle T, l’outil permettra de trouver dans une banque d’archives toutes les séquences où cette automobile peut être aperçue, même s’il ne s’agit pas du sujet principal d’une vidéo.
La force de l’API est qu’elle propose une couche d’analyse contextuelle, grâce à l’intelligence artificielle, qui fait en sorte que le contenu est reconnu dans son contexte. Ce n’est donc pas une simple reconnaissance d’images isolées les unes des autres, mais l’analyse d’un continuum d’images ; ce qui permet ainsi de reconnaître les changements de scène et de cadrage. À l’avenir, le système pourrait aussi reconnaître les scènes clés dans un enregistrement, par exemple, identifier tous les plans correspondants à des essais, des coups francs, des buts, etc., dans l’enregistrement d’une retransmission de match de rugby.
Une autre application envisagée est l’exploitation en direct des flux provenant des caméras de surveillance. Sans opérateurs humains, le système pourra détecter et alerter en fonction de certains comportements prédéterminés : déplacement d’objet, chute d’un passant, automobile mal garée, etc.
En cette ère où les médias doivent se réinventer, la possibilité de bien maîtriser les contenus d’archives offre d’intéressantes nouvelles possibilités de monétisation de contenus existants. Le catalogage et la recherche, deux processus fastidieux aujourd’hui, pourront grâce à l’automatisation permettre une bien meilleure gestion des contenus.