DynaPlex (Deep Reinforcement Learning for Data-Driven Logistics)

In december 2018 publiceerde een team van onderzoekers van DeepMind (eigendom van Google) een paper in het tijdschrift Science, waarin het vermogen van hun nieuw ontwikkelde AlphaZero-algoritme wordt aangetoond om versla de beste game-engines in Chess, Go en Shogi. Wat meer is, in plaats van te vertrouwen op handgemaakte evaluatiefuncties van bordstaten, bevat het AlphaZero-algoritme geen expert informatie over een van de gespeelde spellen: het leert autonoom elk spel te spelen, alleen door het spel vaak tegen zichzelf spelen. Deze AI-doorbraak is opwindend omdat Go en Chess games zijn waarbij het cruciaal is om anticiperen op onbekende bewegingen van de tegenstander. Bij het nemen van logistieke beslissingen is het evenzeer: belangrijk om te anticiperen op de komst van nieuwe gegevens (bijvoorbeeld bestellingen, vertragingen, storingen, enz.). Voor verschillende dynamische datagestuurde beslissingsproblemen, Deep Reinforcement Learning (DRL)-algoritmen zoals:
Het is aangetoond dat AlphaZero game-changers is. De Nederlandse logistieke sector erkent de kansen en staat te popelen om AI te gebruiken voor beslissingsautomatisering. Echter:
• Bedrijven worstelen om de abstracte mogelijkheden van AI te vertalen naar tastbare projectplannen die nodig zijn om door te gaan naar daadwerkelijke implementaties.
• Het toepassen van op MVO gebaseerde besluitvorming vereist deskundige algoritmische kennis, dat wil zeggen: moeilijk te sourcen.
Onze projectdoelen zijn om tegelijkertijd deze twee uitdagingen te overwinnen:
• We ontwikkelen proofs-of-concept (PoC's) AI-beslissingsautomatisering voor onze 10 industriële partners, die dienen als concrete voorbeelden van het potentieel van AI in datagestuurde logistiek.
• Op dezelfde manier als AlphaZero is ontworpen als een generiek hulpmiddel om verschillende spellen op te lossen, we creëren de DynaPlex-toolbox om de snelle ontwikkeling van geautomatiseerde beslissingen te ondersteunen maken op basis van DRL. DynaPlex richt zich op dynamische datagedreven logistieke uitdagingen, en het is cruciaal bij het leveren van de PoC's voor partnerbedrijven, terwijl het ook ondersteunt beslissingsautomatisering voor logistieke uitdagingen van bedrijven buiten het consortium.
Projectwerkpakketten zijn gericht op het maximaliseren van de synergieën van het werken aan deze twee doelen:
(1) In nauwe samenwerking met de bedrijven die dit consortium ondersteunen, formaliseren we een breed scala aan logistieke uitdagingen van onze 10 industriële partners, die zullen worden opgenomen en opgelost in onze kader;
(2) We ontwikkelen een modelleringskader dat het proces van het opnemen van nieuwe uitdagingen in de toolbox;
(3) We ontwikkelen een algoritmisch raamwerk op basis van: DRL die het oplossen van deze uitdagingen automatiseert;
(4) We ontwikkelen PoC's en demonstrators om: het potentieel van AI concreter te maken voor logistieke professionals. We hebben uitgebreide waarborgen om ervoor te zorgen dat de gereedschapskist algemeen bruikbaar zal zijn.
Ons uiteindelijke doel is het ondersteunen van modellering van datagestuurde logistieke beslissingsproblemen in onzekere omgevingen die realtime informatie gebruiken en de toolbox deze problemen laten optimaliseren, met nul codering.