Ateme n’a cessé de remporter des prix pour ses solutions révolutionnaires destinées à améliorer l’expérience de visionnage des vidéos. Mais quelles sont les technologies qui propulsent l’avenir de la vidéo, et qui sont les personnes qui les inventent ? Dans cette série d’articles de blog, nous rencontrons certains des cerveaux les plus brillants d’Ateme. Il s’agit de nos docteurs qui inventent de nouvelles méthodes de compression et de diffusion de la vidéo. Découvrez sur quoi ils travaillent actuellement. L’intelligence artificielle (IA) est un domaine dans lequel Ateme investit. Dans ce premier article de la série, Sébastien Pelurson, PhD — un ingénieur de recherche chez Ateme — partage ce sur quoi il travaille, quels sont les défis à relever et ce que tout cela signifie pour les téléspectateurs.
Quel est votre rôle chez Ateme ?
Je travaille en tant que data scientist dans l’équipe de recherche et d’innovation d’Ateme. Mon rôle est d’utiliser les technologies d’intelligence artificielle pour améliorer le codage et les services vidéo.
Sur quoi travaillez-vous en particulier chez Ateme ?
Je travaille principalement sur l’amélioration du codage vidéo en utilisant l’IA. J’ai travaillé sur plusieurs applications. Celles-ci vont des zones de saillance, de la prédiction et de la segmentation sémantique au débruitage d’images et à l’interpolation de trames vidéo. Dans chacun de ces domaines, mon travail consiste à concevoir, former et évaluer des modèles capables de répondre aux diverses contraintes des cas d’utilisation que nous ciblons, puis d’être utilisés dans un environnement de production. En tant que chercheur, je cherche également à améliorer l’état de l’art en concevant des solutions plus efficaces.
Qu’est-ce que l’IA et comment s’applique-t-elle au secteur de la vidéo ?
L’intelligence artificielle désigne les technologies qui permettent aux ordinateurs d’effectuer des tâches qui nécessitaient jusqu’à présent l’intelligence humaine. Si ce domaine existe depuis plusieurs décennies, par exemple à travers les systèmes experts, il s’est imposé avec le développement de l’apprentissage profond. Avec ce type de technologie, la machine apprend à accomplir des tâches à partir de données, sans suivre d’instructions explicites. Elle apprend progressivement à améliorer sa précision en identifiant des modèles utiles dans les données.
Contrairement à l’apprentissage automatique, qui nécessite de définir des caractéristiques artisanales, l’apprentissage profond s’appuie sur le concept de réseau de neurones artificiels. Il est ainsi possible d’ingérer des données non structurées telles que du texte ou des images. Ainsi, les caractéristiques utiles ne sont plus conçues manuellement, mais sont apprises par les modèles. Le domaine de l’apprentissage profond s’est développé rapidement. Ceci grâce à du matériel puissant comme les unités de traitement graphique (GPU), des ensembles de données à grande échelle et des architectures de modèles efficaces. Il permet aujourd’hui d’atteindre des performances qui seraient impossibles à atteindre avec des solutions traditionnelles. C’est le cas pour les tâches liées à la vision par ordinateur et au traitement du langage naturel.
L’IA a eu un impact sur de nombreux domaines de notre vie quotidienne, et l’industrie vidéo ne fait pas exception. Pensez aux systèmes de recommandation ou à la création de temps forts sur les plateformes de vidéo à la demande. Plus spécifiquement, l’IA a également un impact sur le domaine du codage vidéo. Il peut être utilisé pour améliorer les codecs traditionnels existants. En outre, il peut également aider les codeurs dans leur processus de prise de décision. Enfin, lors des étapes de pré/post-traitement, par exemple pour supprimer les artefacts. Plus récemment, l’accent a également été mis sur la création de nouveaux codecs entièrement basés sur les technologies d’apprentissage profond.
Quels sont les défis de l’application de l’intelligence artificielle au secteur de la vidéo ?
Le principal défi consiste à concevoir des modèles d’IA efficaces qui répondent aux contraintes industrielles. La recherche en intelligence artificielle a été très active au cours des dix dernières années. De nombreuses solutions existent pour un large éventail de tâches. Cependent, elles peuvent rarement être utilisées telles quelles dans un environnement industriel.
Cela s’explique par plusieurs facteurs. La première est la complexité des modèles. Les modèles d’apprentissage profond deviennent de plus en plus efficaces d’année en année, notamment grâce à la conception de nouvelles architectures. Cette efficacité se fait au prix d’une complexité croissante. Par exemple, pour la même tâche de classification d’images, l’un des premiers modèles d’apprentissage profond présentés en 2012 comptait 60 millions de paramètres. Les architectures récentes, comme Transformers, en comptent plus de 2 milliards. Par conséquent, les solutions de pointe très performantes ne se prêtent pas à des environnements très contraignants tels que le codage vidéo en direct.
En outre, la plupart des modèles de pointe sont entraînés et évalués sur des ensembles de données publics afin que les résultats soient comparables et reproductibles. Mais pour être efficaces, les modèles doivent s’entraîner sur des données similaires à celles utilisées dans les étapes d’inférence. C’est ce qu’on appelle la « similarité de la distribution des données ». Si les distributions ne sont pas similaires, on ne peut pas prédire comment le modèle se comportera dans un environnement de production. Ainsi, le jeu de données d’entraînement a un impact énorme sur les performances du modèle. La construction d’un jeu de données spécifique prend beaucoup de temps, en particulier pour l’apprentissage supervisé qui nécessite l’annotation de chaque échantillon du jeu de données.
Qu’avez-vous accompli dans ce domaine chez Ateme ?
Je me suis principalement concentré sur la compréhension des scènes et l’adaptation de la qualité visuelle aux régions d’intérêt de l’image. L’idée est de détecter et de préserver ou d’améliorer la qualité des zones sur lesquelles les spectateurs vont se concentrer dans une séquence vidéo. Ce travail s’appuie sur le mécanisme de fovéation du système visuel humain. Cela nous permet de ne capturer que les régions visuellement importantes en haute résolution. En contrepartie, cela accorde peu d’attention aux régions périphériques et les visualise en basse résolution.
Nous avons récemment montré qu’en utilisant un modèle de prédiction de la saillance, nous pouvons réduire le débit binaire de 6 à près de 30 % tout en conservant la même qualité visuelle. C’est le cas à la fois dans un filtre de prétraitement pour simplifier la séquence d’entrée et dans un module de contrôle du débit. Afin de fonctionner à une vitesse acceptable, le modèle que nous avons utilisé repose sur une architecture codeur/décodeur légère. Il a également suivi une formation sur un ensemble de données publiques. Certaines limites dues à ce choix font l’objet de nos évaluations sur des contenus spécifiques.
La création d’un nouvel ensemble de données sur la saillance est très complexe.
Elle nécessite l’utilisation d’un système d’oculométrique sur de nombreux sujets et doit couvrir tout type de contenu qui pourrait être utilisé dans le codage vidéo. Pour cette raison, nous avons décidé d’améliorer notre solution en concevant une architecture de modèle différente. Notre dernière solution utilise une stratégie d’apprentissage multitâche. Celle-ci résout plusieurs tâches en même temps en utilisant des ensembles de données différents pour chacune d’entre elles. Et elle a l’avantage de limiter l’impact des biais présents dans chacun des jeux de données spécifiques. Cela fait en extrayant des modèles de chaque jeu de données et en permettant au modèle de mieux généraliser. De plus, l’utilisation de cette approche sur des tâches similaires, telles que la prédiction de la saillance et la segmentation sémantique, permet de fusionner les deux sorties pour améliorer encore les prédictions.
Cette approche conduit à des modèles un peu plus complexes. Nous avons ensuite travaillé avec des techniques d’optimisation des modèles, telles que la quantification, l’opération de fusion et l’élagage, afin de les accélérer pour une plateforme cible spécifique.
Qu’est-ce que l’intelligence artificielle change pour les téléspectateurs ?
Même sans IA, l’objectif principal est toujours d’améliorer la qualité de l’expérience pour les téléspectateurs. Il est essentiel d’offrir de nouveaux services ou d’améliorer le compromis débit/distorsion.
Une meilleure efficacité du codage se traduit soit par une meilleure qualité perçue, soit par une consommation moindre de débit binaire. Les nouveaux codecs visent à améliorer l’efficacité du codage. Toutefois, le parc installé de récepteurs n’est pas toujours compatible avec eux, de sorte que leur adoption peut être très lente. C’est pourquoi les codecs existants doivent être améliorés. Aujourd’hui, certaines solutions d’intelligence artificielle ont montré des améliorations dans certains outils de codage qui n’avaient pas été obtenues avec les algorithmes traditionnels. Ce type d’approche semble donc être une voie prometteuse pour améliorer les codecs existants.
Le résultat le plus visible pour les téléspectateurs se trouve dans les services. Les plus populaires sont les systèmes de recommandation. Ceux-ci permettent aux plateformes de streaming de suggérer des contenus personnalisés aux utilisateurs. Mais l’intelligence artificielle peut également être utilisée par ces plateformes pour choisir de nouveaux contenus. C’est par exemple le cas lorsqu’il s’agit de prédire si une vidéo particulière sera appréciée par les utilisateurs. D’autres tâches qui peuvent être traitées par l’IA comprennent la création de temps forts et la génération de sous-titres.
Les technologies d’IA ont évolué très rapidement au cours de la dernière décennie. L’adoption de nouvelles solutions dans des domaines spécifiques tels que l’industrie vidéo peut être lente. Cela s’explique par les défis mentionnés ci-dessus. Mais les technologies d’intelligence artificielle ont déjà démontré leur pertinence. Cela se traduit par des niveaux de performance jamais atteints auparavant pour certaines tâches. Le codage vidéo par apprentissage profond de bout en bout en est un exemple. Il rivalise déjà avec les codeurs d’images fixes de pointe, après seulement quelques années de recherche.