The categorization challenge organized by Cdiscount on datascience.net in 2015: analysis of the released data set and winning contributions

  • Yang Jiao
  • Bruno Goutorbe
  • Christelle Grauer
  • Matthieu Cornec
  • Jérémie Jakubowicz

Résumé

In 2015, Cdiscount challenged the community to predict the correct category of its products from some of their attributes such as their title, description, price or associated image. The candidates had access to the whole catalogue of active products as of May 2015, which accounts for about 15.8 millions items distributed over 5,789 categories, a subset of which served as testing set. The data suffers from inconsistencies typical of large, real-world databases and the distribution of categories is extremely uneven, thereby complicating the classification task. The five winning algorithms, selected amongst more than 3,500 contributions, are able to predict the correct category of 66-68% of the testing set's products. Most of them are based on simple linear models such as logistic regressions, which suggests that preliminary steps such as text preprocessing, vectorization and data set rebalancing are more crucial than resorting to complex, non-linear models. In particular, the winning contributions all carefully cope with the strong imbalance of the categories, either through random sampling or sample weighting. A distinguishing feature of the two highest-scoring algorithms is their blending of large ensemble of models trained on random subsets of the data. The data set is released to the research and teaching communities, as we hope it will prove of valuable help to improve text and image-based classification algorithms in a context of very large number of classes.
Keywords: classification, e-commerce, big data, public data set.

Le challenge de catégorisation organisé par Cdiscount sur datascience.net en 2015 : analyse du jeu de données mis à disposition et des contributions gagnantes
En 2015, Cdiscount a mis la communauté au défi de prévoir la catégorie correcte de ses produits à partir de certains de leurs attributs comme le libellé, la description, le prix ou l'image associée. Les candidats ont eu accès à l'intégralité du catalogue de produits actifs en mai 2015, soit environ 15.8 millions d'items répartis dans 5,789 catégories, hormis une petite partie qui a servi d'ensemble de test. La qualité des données est loin d'être homogène et la répartition des catégories est extrêmement déséquilibrée, ce qui complique la tâche de catégorisation. Les cinq algorithmes gagnants, sélectionnés parmi plus de 3,500 contributions, atteignent un taux de prévisions correctes de 66-68% sur l'ensemble de test. La plupart utilisent des modèles linéaires simples comme des régressions logistiques, ce qui suggère que les étapes préliminaires telles que le pré-traitement du texte, sa vectorisation et le rééchantillonnage des données sont plus cruciales que le choix de modèles non-linéaires complexes. En particulier, les gagnants corrigent tous le déséquilibre des catégories par des méthodes d'échantillonnage aléatoire ou de pondération en fonction de l'importance des catégories. Les deux meilleurs algorithmes se distinguent par leur aggrégation de grands nombres de modèles entrainés sur des sous-ensembles aléatoires des données. Le catalogue de produits est mis à disposition de la communauté de recherche et formation scientifique, qui disposera ainsi de données réelles issues du e-commerce pour étalonner et améliorer les algorithmes de classification basés sur le texte et les images dans un contexte de très grand nombre de classes.
Mots-clés : classification, e-commerce, big data, jeu de données public.
Publiée
2017-12-15
Rubrique
Dossier spécial : Concours et challenges en statistique