Trouver le modèle le plus précis est une tâche particulièrement chronophage et nécessite des équipes de data scientists expérimentées. Cependant, même ce type de profils n’échappe pas à la tendance d’automatisation des tâches par les algorithmes, et on peut actuellement observer l’émergence de nouvelles technologies qu’on appelle “AutoML” (machine learning automatisé). Avec Verteego, nous appliquons cette tendance au domaine de la prise de décisions.
Le choix du bon modèle algorithmique est le nerf de la guerre pour obtenir une précision importante dans la prise de décisions opérationnelles. Il existe des centaines de modèles sur le marché, appartenant en grande partie à des librairies open source. Verteego propose dans sa version native les algorithmes les plus fréquemment utilisés (arbres de décisions, régressions, séries temporelles, réseaux de neurones, etc.) et permet de “brancher” facilement d’autres librairies. Lors de l’entraînement des modèles, Verteego compare automatiquement les différents modèles activés à travers des fichiers de paramétrage selon des critères de priorisation qui ont été définis par l’utilisateur.
Les hyperparamètres des modèles (sélectionnables par l’utilisateur et appelés ainsi par opposition aux paramètres qui eux ne sont pas choisis par l’utilisateur) jouent un rôle clé dans la performance des recommandations. Ainsi, un même modèle peut produire des résultats totalement divergents selon l’ensemble des hyperparamètres sélectionnés. L’utilisateur peut “guider” l'App dans le choix des hyperparamètres en indiquant des plages spécifiques dans le fichier de configuration. Néanmoins, Verteego intègre nativement des méthodes de sélection des hyperparamètres les plus performants afin d’arriver à des résultats d’une bonne précision, même sans sélection manuelle.
La bonne sélection des variables explicatives du modèle (aussi appelées features) est l’une des tâches les plus chronophages dans le travail du data scientist. Il est important d’intégrer le plus de variables explicatives possibles, car celles-ci augmentent la précision des recommandations, sans toutefois ajouter des variables superflues qui risqueraient de créer du “bruit” inutile et détériorer la qualité des recommandations. Verteego utilise les techniques d’évaluation de la pertinence des variables les plus performantes afin de débarrasser l’utilisateur de cette tâche parfois complexe.
Verteego n’est pas une solution pour la préparation des données (comme Talend, Trifacta, Dataiku et autres). Néanmoins, parfois il peut être pratique de modifier les données d’entrée “à la volée”, sans devoir régénérer entièrement les datasets sous-jacents.
Pour cela, Verteego permet, très intuitivement, de mettre en place des règles de preprocessing à travers le fichier de paramétrage. Par exemple, il est possible de générer des variables supplémentaires, calculées à partir d’autres variables, définir des règles de remplacement de certaines valeurs, exclure des outliers selon certains critères bien définis, etc.
Dans certains cas, les résultats des recommandations peuvent présenter des anomalies. Ceci arrive notamment quand les données d’entrée ne sont pas d’une qualité optimale. Il devient alors nécessaire de corriger les résultats en mettant en place des règles de gestion de différents types (ex. correction de recommandations aberrantes, remplacement de valeurs nulles, etc.). Verteego permet de définir ces règles en toute simplicité à travers son fichier de paramétrage.
Vos jeux de données peuvent être très hétérogènes. Selon les ensembles de données d’entrée utilisées dans l’apprentissage, l'un ou l'autre algorithme peut s’avérer plus efficace. Or, il est techniquement complexe d'utiliser différents algorithmes de manière combinée...
Grâce à Verteego, cette contrainte appartient désormais au passé, vous n'aurez plus besoin de choisir entre différentes approches. Selon le type de données, Verteego combinera les approches de modélisations les plus performantes pour chaque sous-ensemble de données afin d’obtenir la meilleure précision globale.