Introduction et contexte

La catégorisation automatique de catalogues consiste à classer de manière automatisée les fiches produits d’un catalogue en fonction de leurs contenus ; cette organisation hiérarchique de produits est primordiale pour améliorer l’expérience de recherche de l’utilisateur et faciliter la navigation sur le site. Cette problématique connaît depuis une dizaine d’années un fort regain d’intérêt, en raison de la progression constante du commerce électronique, de la croissance de la taille des catalogues, à l’émergence du modèle place de marché (market place) et à la nécessité d’organiser rapidement les fiches produits.

La catégorisation automatique est une problématique assez ancienne, datant des années 60 et qui a connu des progrès considérables avec l’apparition d’algorithmes de plus en plus performants. Auparavant, la classification de documents était une tâche complexe : elle reposait principalement sur un ensemble de règles définies manuellement par des experts, nécessitant un nouveau travail de paramétrage lorsque les fiches produits changeaient de format ou que de nouvelles catégories apparaissaient. Cela amenant à un taux de précision ne permettant pas un automatisme complet (validation humaine nécessaire). 

L’avènement de l’apprentissage automatique s’est traduit par un gain de temps conséquent, ce qui offre une capacité à catégoriser des catalogues de plus en plus volumineux. En effet, l’apprentissage automatique (machine learning) est une technique d’intelligence artificielle permettant de déduire des règles à partir d’un jeu de données classifiées manuellement par un expert humain (jeu d’apprentissage). Cela consiste à entraîner un jeu d’apprentissage afin de trouver les meilleurs paramètres permettant de configurer le système de catégorisation/prédiction. Ce système évite un paramétrage manuel des règles de classification et a la capacité d’atteindre des niveaux de précision élevés ; permettant une automatisation du processus de classification/prédiction sans validation humaine. 

Ces évolutions technologiques et algorithmes avancés font aujourd’hui de la catégorisation un outil fiable et plusieurs solutions de catégorisation ont été développées pour d’autres besoins (la classification d’emails ou encore les filtres anti-spams par exemple).

Un service de catégorisation e-commerce basé sur le deep learning

Historiquement, les technologies de catégorisation automatique ont utilisé différentes générations d’algorithmes, chaque nouvelle génération apportant son lot d’améliorations par rapport à la précédente. Parmi les plus anciennes, on peut citer les réseaux Bayesiens, les arbres de décision et Les KNN. 

Dans le cadre du projet européen PAPUD (Profiling and Analysis Platform Using Deep Learning), ContentSide a développé une nouvelle approche de catégorisation de catalogues e-commerce en se basant sur un mécanisme d’apprentissage automatique (deep learning). Nous avons entraîné nos algorithmes sur deux ensembles de catalogues, provenant de deux site e-commerce très populaires en France (plus de 2000 catégories à prédire pour chaque site). 

Les résultats obtenus et validés par les partenaires ont atteint un score F-mesure de 97% (une mesure qui combine les mesures de précision et de rappel).

Description de l’approche

Dans le cadre de nos travaux de recherche, nous avons utilisé plus d’un million de produits appartenant à plusieurs catégories formant une taxonomie (classification multiple et hiérarchique) et couvrant des domaines variés (sport, informatique, vêtements, livres, produits alimentaires, etc). 

L’hétérogénéité et la complexité de données nécessitent un système de catégorisation exploitant toutes les informations disponibles au sein de chaque catalogue (structure, sémantique, caractéristiques de produit, etc). Notre approche, décrite par le schéma ci-dessous, est basée sur des modèles de deep learning, permettant d’offrir un système de catégorisation performant.

Classification automatique par apprentissage (deep learning)

La mise en situation

Dans un premier temps, une étape de prétraitement est réalisée : après la récupération des métadonnées, nous commençons par supprimer la liste des mots et des patterns indésirables ; puis une technique de pattern matching est appliquée afin de sélectionner un ensemble de motifs pertinents.

Vectorisation

Dans cette étape, nous utilisons un ensemble de mesures statistiques relatives aux motifs extraits dans l’étape précédente, une transformation vectorielle est appliquée sur ces mesures afin de les préparer pour l’apprentissage.

Modèle de catégorisation

Les vecteurs générés lors de l’étape précédente contiennent les scores pour chaque métrique utilisée et constituent les entrées du réseau de neurones.

Ainsi, pour l’ensemble des catégories qu’on souhaite prédire, nous avons entraîné notre système en utilisant environs 1 million de produits. Les évaluations de cette solution ont montré que le taux de rappel et de précision dépassent les 97 %

Conclusion

En conclusion, une nouvelle génération d’algorithme de classification atteint une précision qui permet de réaliser une classification entièrement automatisée d’un site e-commerce, sans validation humaine requise.
Cela permet de gagner du temps et de la réactivité sur les catalogues volumineux ou les places de marché qui doivent intégrer régulièrement les catalogues de leurs vendeurs.

Les experts de ContentSide se tiennent à votre disposition pour échanger sur ce sujet :

Samir AMIR, responsable R&D, samir.amir@contentside.com

Arnaud DUMONT, consultant E-commerce, arnaud.dumont@contentside.com

Vous souhaitez échanger ?