Monitoring de modèles d’intelligence artificielle : méthode, représentation et résultat

Tous les titres de presse connaissent une mutation progressive de la façon dont leurs articles sont écrits. Les sujets traités, le style rédactionnel, le vocabulaire utilisé ou la densité de contenu par rubrique sont autant de paramètres susceptibles d’évoluer au cours du temps.

Pour entraîner un modèle d’IA, il faut constituer un corpus de données. Pour cela, on utilise la base d’articles d’un éditeur de presse. Ce corpus n’est donc représentatif de la base éditoriale qu’à un moment donné. Ainsi, l’évolution naturelle des données réelles creuse l’écart avec les données d’entraînement, et peut causer la chute des performances du modèle.

Quelles sont les solutions pour y remédier ? En d’autres termes, comment s’assurer qu’un modèle entraîné pour la presse et les médias est toujours pertinent ?

En bref : la mise en place d’un monitoring est indispensable pour surveiller la pertinence du modèle. Faire appel à un expert permet de déterminer au mieux la manière de faire selon le besoin exprimé. Cela évite d’utiliser la mauvaise méthode, et permet de favoriser les solutions efficientes et responsables. 🌱

Vous avez besoin d’un expert ? Parlez-nous de votre projet.

Point définition

Pour s’assurer qu’un modèle reste performant, on peut mettre en place un système de monitoring. Il faut donc fournir des données exploitables au modèle, qui ne peut pas utiliser les données textuelles, en sélectionnant une méthode de représentation des données. 

Transformer les données textuelles en données exploitables par l’IA 

Pour vérifier la pertinence d’un modèle sur des données en perpétuelle évolution, on peut comparer les textes utilisés pour l’entraînement et les textes actuellement produits par la rédaction. 

Cependant, il n’est pas possible pour une machine de comparer des textes en langage naturel : il faut les transformer en une représentation numérique. En bref, on transforme chaque article en vecteur, et on les place dans un espace. Cela permet de calculer une distance entre deux textes, et donc de connaître leur degré de similitude

Ce mécanisme est utilisé pour détecter la catégorie à laquelle appartient un nouvel article, mais il peut aussi être utilisé pour alerter lorsque les articles soumis sont trop différents des articles d’entrainements.

Représenter les données de manière intelligible pour l’humain 

On peut représenter les données de plusieurs manières différentes. Pour simplifier, nous en explorerons trois :

Chacune ont leurs spécificités, ce qui fait du choix de la représentation des données une décision capitale pour obtenir le résultat souhaité. Pour comprendre l’enjeu derrière ce choix, utilisons un cas d’usage fictif : celui de France-Actus.

Maintenir la performance d’un modèle de classification pour la presse : le cas France-Actus

Pour comprendre comment choisir la meilleure représentation, prenons l’exemple d’un titre de presse, que nous appellerons France-Actus. 

France-Actus est un quotidien généraliste qui couvre l’actualité nationale. En 2018, le titre cherche une solution pour faire gagner en productivité sa rédaction tout en améliorant le maillage interne de son site. Le rédacteur en chef, Eddy Torialiste, décide de mettre en place un modèle de classification pour ses articles.

Concrètement, lorsqu’un journaliste termine la rédaction d’un article, il fait appel à un système d’intelligence artificielle afin de le classer automatiquement dans une ou plusieurs rubriques du site.

Ce nouvel outil apporte son aide à la rédaction pendant plusieurs années, jusqu’à ce qu’un événement imprévisible vienne bouleverser cette coopération.

La mise en place du monitoring : le COVID

Deux ans après la mise en place du modèle de classification, ses performances sont en chute libre. En effet, les catégories suggérées par le modèle semblent incohérentes et la rédaction n’est plus satisfaite par l’outil.

Et pour cause : nous sommes en 2020, une année marquée par l’avènement du COVID-19 : l’épidémie a fait la Une de tous les titres et de tous les médias pendant de nombreuses semaines.

Résultat ? La ligne éditoriale de France-Actus a été impactée, et les données soumises au modèle sont dorénavant trop éloignées des données d’entraînement. 

Pour résoudre ce problème, Eddy Torialiste prend deux décisions : 

  • Réentraîner son modèle de classification sur les nouvelles données,
  • Monitorer son modèle, pour être alerté automatiquement s’il devient moins performant.

Eddy Torialiste opte pour la solution la plus simple : surveiller l’évolution de ses articles en comparant la représentation utilisée par son modèle de classification.  La représentation qui correspond au modèle de langue est donc déjà calculée dans son système, puisque cette étape est nécessaire pour catégoriser ses articles.

La révision du monitoring : ChatGPT

En 2023, France-Actus fait face à deux nouveaux problèmes : Les lecteurs critiquent la cohérence de navigation dans le site, et les performances SEO se dégradent.

Pour tenter de trouver la cause, Eddy Torialiste se penche à nouveau sur les performances du modèle de classification. Les indicateurs n’indiquent toutefois pas de diminution des performances, ni de changement significatif dans les articles.

Après avoir sondé la rédaction, Eddy Torialiste apprend qu’une partie de ses journalistes a commencé à utiliser ChatGPT, ce qui a occasionné une modification substantielle du style rédactionnel et du vocabulaire employé.

En dehors du fait qu’il aurait aimé en être averti, Eddy Torialiste apprend ainsi que le choix d’utiliser un modèle de langue rend impossible la détection d’un tel changement. En effet, pour classifier correctement les articles, le modèle de langue à appris à ne pas tenir compte des changement de style pour se concentrer sur les sujets abordés. 

Le choix le plus judicieux dans ce cas aurait été de mettre en place une représentation TF-IDF. Car le modèle de langue fait abstraction de la forme pour se concentrer sur le sujet, tandis que la méthode TF-IDF se concentre sur le style et le vocabulaire

Un monitoring insuffisant : les JO

En 2024, la rédaction de France-Actus est en pleine effervescence et couvre les Jeux Olympiques de Paris. De nombreux articles sont publiés chaque jour pour relayer et commenter toutes les épreuves sportives.

À quelques jours de la fin de la compétition, le modèle de classification alerte Eddy Torialiste : la proportion d’articles publiés dans la catégorie “sport” a explosé. Il ne comprend pas pourquoi il n’a pas été alerté plus tôt et aurait préféré être prévenu dès les premiers jours de la compétition. 

Pour cela, Eddy Torialiste aurait dû opter pour une représentation plus spécialisée, à l’image des scores du classifier qui ne surveillent que la proportion des catégories mais sont réactives et légères.

Comment choisir la bonne méthode ? 

Le cas fictif France-Actus nous apprend que la façon dont on représente les données influence largement le résultat que l’on peut obtenir d’un modèle de monitoring.

Une première solution pourrait consister à combiner plusieurs méthodes pour couvrir toutes les possibilités. 

Une deuxième solution pourrait également consister à utiliser un LLM. Cette technique, bien qu’ayant fait ses preuves en termes de performance, requiert d’utiliser un modèle dix fois plus gros qui sera donc plus coûteux et plus énergivore.

Toutefois, une meilleure solution existe pour combiner efficacité et performance. Il s’agit de faire appel à un expert capable de comprendre le besoin dans le détail et d’y répondre en apportant une solution adaptée.

Cette logique d’efficience encourage l’adoption de pratiques responsables en termes d’intelligence artificielle. 

Vous souhaitez faire appel à un expert pour le traitement et la valorisation de vos données ? Nous sommes là pour vous accompagner !

Ce sujet vous intéresse ?

NOUS CONTACTER