Modèle de prédiction de prix MonCompteFormation

Published by Matt SONNATI on

Comme vous avez pu le découvrir dans notre précédent article, le marché de la formation professionnelle est en plein changement.

Notre analyse du catalogue de formations disponibles sur l’application Mon Compte Formation a mis en lumière quelques unes de ces tendances.

Des prix étonnants

Le prix des formations en particulier nous a paru suivre une distribution relativement surprenante, difficile à expliquer simplement, en particulier à l’échelle macroscopique. Plusieurs hypothèses se dégagent et, certainement, se combinent :

  • certains OF ne cherchent pas à s’adapter aux récentes évolutions réglementaires et aux nouveaux modes de financement, et positionnent de manière arbitraire leurs offres historiques,
  • certains OF tentent de trouver de nouveaux différenciateurs allant au delà de la durée et de la localisation (en centre/à distance),
  • certains OF tentent des stratégies de saturation en proposant un nombre disproportionné d’offres très similaires afin d’augmenter leur visibilité parmi les résultats d’une recherche sur MonCompteFormation.
Un outil interactif

Histoire d’aller au delà des graphiques déjà partagés avec vous dans notre précédent article,  nous avons eu l’idée avec l’équipe de développer un outil qui vous permettrait d’interagir directement avec ces données. Nous avons donc réalisé un outil interactif de prédiction de prix basé sur l’offre de formations du catalogue MonCompteFormation au 1er mars 2020.

Découvrez le Prédicteur de prix 🔮 des formations MonCompteFormation

Sous le capot

Cet outil repose sur un modèle en Machine Learning (ML) entrainé sur les titres des formations CPF, après traitement préalable de ces titres par traitement automatique du language naturel (NLP). Ce traitement nous a permis de faire ressortir les 5000 mots-clés dans les titres des formations ayant le plus d’impact sur le prix. En plus de ces mots-clés, nous avons sélectionné deux variables influant sur le prix des formations : la durée et la zone géographique. Afin d’améliorer la pertinence des prédictions et après plusieurs expérimentations, nous avons décidé de réduire le champ de prédiction aux formations de moins de 5000 € et de moins de 200 h.

Le traitement des données, l’entrainement du modèle et son déploiement ont pu être réalisé en un temps records (2 semaines) grâce à l’outil SageMaker de AWS. Cet outil ML est vraiment impressionnant car il permet de combiner l’agilité et la rapidité d’exécution propre à une startup avec l’infrastructure robuste et la montée en charge virtuellement infinie d’un des leaders du Cloud. Nous en profitons d’ailleurs pour remercier l’équipe AWS France pour leur support (en expertise et en crédits) qui nous permet aujourd’hui de partager avec vous ce prédicteur de prix. Ce mini-projet en augure bien d’autres !

Biais potentiels et notes d’utilisation

Le Machine Learning est un outil très puissant mais il faut toujours avoir à l’esprit les limites et biais potentiels des modèles obtenus avec ces techniques. Dans ce cas, voici une liste des limites et biais qui affectent la fiabilité des prédictions réalisées par notre modèle :

  • Nombre de mots clés limités à 5000 : si vous entrez des mots clés trop courants et/ou au contraire trop rares, le modèle ne les prendra pas en compte.
  • Zone géographique avec très peu de formations disponibles : la quantité de donnée est primordiale en ML et par conséquent le modèle donnera des résultats plus fiables dans les zones géographiques avec beaucoup de formations (Paris, Lyon) que dans les zones moins denses.
  • Erreurs ou données manquantes dans le jeu de données : ce modèle a été entrainé sur les données du catalogue CPF au 1er mars 2020. Les erreurs ou données manquante dans ce dataset peuvent avoir un impact sur la fiabilité du modèle, comme par exemple dans le cas d’une formation de durée nulle alors que dans la description de cette formation, il est écrit “60 h de formation”.
  • Ordre ou combinaison des mots-clés : il se peut que l’ordre ou la combinaison de certains mots-clés conduisent à des biais que nous n’aurions pas détecté ou minimisé.

Dans l’outil, vous pouvez entrer une série de mots-clés présents dans le titre d’une formation. Par mots-clés, il faut comprendre mots qui ne sont pas inutiles, comme les mots de liaisons par exemple. Néanmoins, chaque adjectif, chaque nom, chaque verbe aura un poids important sur le traitement NLP réalisé et par conséquent sur la réponse du modèle. Sans rentrer trop dans les détails, voici dans les grandes lignes les étapes de notre traitement du texte et de l’algorithme derrière :

  • Nous commençons par retirer tous les caractères spéciaux, les chiffres, les URL, le HTML, les mots détectés comme inutiles (mots de liaisons par exemple).
  • Ensuite nous prenons la racine la plus simple du mot (ex : journaux devient journal) avant d’envoyer ce texte traité au modèle.
  • Pour le modèle, chaque mot est vectorisé et le modèle va calculer le vecteur résultant de la combinaison de ces mots
  • Ensuite, le modèle prend en compte la durée de la formation et son code postal, pour estimer la valeur finale du prix de la formation. 

Il est donc important de ne pas enlever un mot en se disant qu’il est inutile, car même si il est peut être inutile pour nous humains, il est peut être utile au modèle pour prédire le prix de la formation.

Un outil d’aide à la réflexion 

Comme vous le verrez, nous avons voulu cet outil ludique et interactif. Comme souvent avec les prédicateurs et oracles en tout genre, ne prenez pas ces prédictions à la lettre, même si je suis sur que vous serez bluffé de sa justesse dans de nombreux cas. 🤓 

Notre objectif avec cet outil est d’aider la communauté des acteurs de la formation pro à mieux appréhender les changements qui s’opèrent dans ce marché.

Amusez-vous à entrer plusieurs combinaisons de mots-clés et à faire varier la durée et la zone géographique. Vous verrez certains résultats seront contre-intuitifs. Est-ce à raison ou à tort ?

L’objectif de cet outil n’est pas de vous donner LA réponse mais plutôt d’inciter à la réflexion sur le positionnement prix d’une formation pro sur MonCompteFormation. Est ce que le prix d’une formation se réduit à une durée multipliée par un taux horaire ? Est ce que les prix dans ce domaine de formation sont le fruit d’une approche par les coûts, par le marché ou par la valeur ?

Aller plus loin

Nous sommes à votre écoute si vous avez des retours. Si vous avez des besoins d’analyses plus poussées et plus précises dans certains domaines en particulier, nous nous ferons un plaisir de vous aider à y voir plus clair parmi toutes ces données.

N’hésitez pas à nous envoyer un email à analytics@inokufu.com et à nous suivre sur linkedin pour être informé de nos prochaines analyses et outils.

Cliquez ici pour découvrir le Prédicteur de prix 🔮 des formations MonCompteFormation

 

A propos d’Inokufu

Inokufu est une startup EdTech spécialiste des données éducatives. A la frontière entre les sciences de l’éducation et les data sciences, Inokufu développe des outils innovants d’apprentissage personnalisé à grande échelle. La startup est passée par le Digital Booster EdJobTech de l’EmLyon puis a rejoint, depuis septembre 2019, l’incubateur du Lab d’innovation de Pôle Emploi Auvergne-Rhône-Alpes dans le cadre du passage en phase pilote de son application Becomino. Grace à sa technologie propriétaire de traitement de données éducatives (GNO6), Inokufu construit la plus grande base de données de ressources éducatives et de formations au monde. Celle-ci comporte déjà à ce jour plus de 720k entrées, utilisées pour développer des algorithmes de catégorisation et de recommandations par Machine Learning (IA), spécifiques au domaine de l’éducation et de la formation.