L’IA au service de meilleures décisions et opérations
Forte volatilité, pénurie de main-d’œuvre et amélioration de la durabilité obligent toutes les entreprises à optimiser leurs opérations. Ces défis requièrent des solutions d’optimisation dynamiques et adaptées au RL (Reinforcement Learning). Contrairement à l’apprentissage supervisé et non supervisé, le RL apprend à effectuer des tâches comme les humains, par tâtonnements. Le RL a atteint un niveau de maturité suffisant et APGAR l’utilise déjà pour optimiser les opérations client.
Reinforcement Learning (RL) est prêt à être utilisé dans différents secteurs.
Cas d’utilisation du RL dans la production et l’industrie
Le RL peut aider à gérer des processus de fabrication et systèmes industriels complexes. Il peut surveiller des commandes entrantes en temps réel pour recommander des actions de planification respectant les SLA et limitant pertes de matières premières et main-d’œuvre. Il peut créer des contrôleurs logiciels proposant des valeurs de paramètres pour optimiser les stations de compression de gaz ou les turbines éoliennes.
Chaîne d’approvisionnement et autres cas d’utilisation
Le RL peut surveiller les chaînes d’approvisionnement en temps réel pour exécuter l’action appropriée. Une entreprise de transport peut optimiser les itinéraires selon la disponibilité des camions et employés, le trafic et la météo. Dans la finance et l’assurance, le RL a été appliqué avec succès à l’automatisation de transactions, à l’optimisation de portefeuilles et à des systèmes de recommandation.
“Reinforcement learning combined with discrete event simulation is a game changer in ensuring the optimal performance of industrial processes and operations when quick decisions have to be taken to answer unexpected events, such as new customer orders and machine failures.”
Concepts et facteurs critiques de succès.
- Fonctionnement du RL
- Environnements d’apprentissage et fonctions de récompenses
- Ressources d’ajustement et de calcul
Fonctionnement du RL
Un agent RL apprend par tâtonnements. En résumé, il observe l’état d’un processus ou système (souvent une simulation ou un jumeau numérique), effectue des actions et reçoit des récompenses (positives ou négatives) pour chaque action. L’apprentissage consiste à trouver la séquence d’actions qui optimise les récompenses cumulées reçues sur une période spécifique ou pour accomplir une tâche donnée.