L’IA au service de meilleures décisions et opérations

Forte volatilité, pénurie de main-d’œuvre et amélioration de la durabilité obligent toutes les entreprises à optimiser leurs opérations. Ces défis requièrent des solutions d’optimisation dynamiques et adaptées au RL (Reinforcement Learning). Contrairement à l’apprentissage supervisé et non supervisé, le RL apprend à effectuer des tâches comme les humains, par tâtonnements. Le RL a atteint un niveau de maturité suffisant et APGAR l’utilise déjà pour optimiser les opérations client.

Cas d’utilisation du RL dans la production et l’industrie

Le RL peut aider à gérer des processus de fabrication et systèmes industriels complexes. Il peut surveiller des commandes entrantes en temps réel pour recommander des actions de planification respectant les SLA et limitant pertes de matières premières et main-d’œuvre. Il peut créer des contrôleurs logiciels proposant des valeurs de paramètres pour optimiser les stations de compression de gaz ou les turbines éoliennes.

Chaîne d’approvisionnement et autres cas d’utilisation

Le RL peut surveiller les chaînes d’approvisionnement en temps réel pour exécuter l’action appropriée. Une entreprise de transport peut optimiser les itinéraires selon la disponibilité des camions et employés, le trafic et la météo. Dans la finance et l’assurance, le RL a été appliqué avec succès à l’automatisation de transactions, à l’optimisation de portefeuilles et à des systèmes de recommandation.

“Reinforcement learning combined with discrete event simulation is a game changer in ensuring the optimal performance of industrial processes and operations when quick decisions have to be taken to answer unexpected events, such as new customer orders and machine failures.”

Mário Duarte Head of Advanced Analytics & Iberia

Concepts et facteurs critiques de succès.

Fonctionnement du RL
Environnements d’apprentissage et fonctions de récompenses
Ressources d’ajustement et de calcul

Fonctionnement du RL

Un agent RL apprend par tâtonnements. En résumé, il observe l’état d’un processus ou système (souvent une simulation ou un jumeau numérique), effectue des actions et reçoit des récompenses (positives ou négatives) pour chaque action. L’apprentissage consiste à trouver la séquence d’actions qui optimise les récompenses cumulées reçues sur une période spécifique ou pour accomplir une tâche donnée.

Environnements d’apprentissage et fonctions de récompenses

L’environnement et la fonction de récompense, définis par des Data Scientists en coopération avec des spécialistes, constituent des facteurs critiques de succès. La récompense doit être reliée à un objectif professionnel (optimiser les revenus/réduire les coûts). L’environnement d’apprentissage est généralement une plateforme numérique ou développé avec un simulateur pour que l’agent puisse observer et agir via une API.

Ressources d’ajustement et de calcul

Entraîner un agent RL (réseau neuronal artificiel) requiert d’importantes ressources informatiques. Sont nécessaires des itérations avec des variantes d’environnements et un ajustement de l’agent RL et de l’algorithme. Cela exige des logiciels RL spécialisés, comme APGAR RiLP, et des ressources de Cloud Computing pour faire évoluer et exécuter l’apprentissage et l’ajustement, comme Anyscale.