Dans le cadre d’une plateforme d’e-commerce, votre mission est de réaliser une première étude de faisabilité d’un moteur de classification d’articles basé sur une image et une description pour l’automatisation de l’attribution de la catégorie de l’article. Vous analyserez le jeu de données en réalisant un prétraitement des images et des descriptions des produits, une réduction de dimension, puis un clustering.
Déroulement du projet
Ce projet va permettre de nous initier au traitement NLP, au traitement d’image et à l’apprentissage profond.
Comme toujours, j’ai commencé par une EDA (Anlayse Exploratoire des Données).
Puis, j’ai traité les données de type texte (descritpion des articles) en elevant la ponctuation et les mots courants, puis en les passant dans uns algorithme TF-IDF (Term-Frequency – Inverse Document Frequency). Enfin pour les images, j’ai comparé deux methodes :
SIFT + Clusterisation
Transfer Learning (VGG16) + clusterisation
Compétences acquises
Prétraiter des données image pour obtenir un jeu de données exploitable
Mettre en œuvre des techniques de réduction de dimension
Représenter graphiquement des données à grandes dimensions
Prétraiter des données texte pour obtenir un jeu de données exploitable