Projet 6 : Classifiez automatiquement des biens de consommation

6eme projet de la formation DATA SCIENTIST

repertoire GITHUB

Problématique

Dans le cadre d’une plateforme d’e-commerce, votre mission est de réaliser une première étude de faisabilité d’un moteur de classification d’articles basé sur une image et une description pour l’automatisation de l’attribution de la catégorie de l’article.
Vous analyserez le jeu de données en réalisant un prétraitement des images et des descriptions des produits, une réduction de dimension, puis un clustering.

Déroulement du projet

Ce projet va permettre de nous initier au traitement NLP, au traitement d’image et à l’apprentissage profond.

Comme toujours, j’ai commencé par une EDA (Anlayse Exploratoire des Données).

Puis, j’ai traité les données de type texte (descritpion des articles) en elevant la ponctuation et les mots courants, puis en les passant dans uns algorithme TF-IDF (Term-Frequency – Inverse Document Frequency).
Enfin pour les images, j’ai comparé deux methodes :

  • SIFT + Clusterisation
  • Transfer Learning (VGG16) + clusterisation

 

Compétences acquises

  • Prétraiter des données image pour obtenir un jeu de données exploitable
  • Mettre en œuvre des techniques de réduction de dimension
  • Représenter graphiquement des données à grandes dimensions
  • Prétraiter des données texte pour obtenir un jeu de données exploitable
  • Apprentissage profond et Transfer Learning

Laisser un commentaire