Congestion Control on Conveyor Lines wiネット ブラックジャック Deep Reinforcement Learning and Bayesian Optimization
TAKAHASHI Kengo, SHIKAYAネット ブラックジャック Hiroyuki
TAKAHASHI Kネット ブラックジャックgo : Electrical & Control Design Group, Project Department, Logistics System Business Unit, IHI Logistics & ネット ブラックジャックchinery Corporation
SHIKAYAネット ブラックジャック Hiroyuki : ネット ブラックジャックnager, Electrical & Control Design Group, Project Department, Logistics System Business Unit, IHI Logistics & ネット ブラックジャックchinery Corporation
ネット ブラックジャックe characteristics of congestion control on conveyor lines cause difficulty in handling ネット ブラックジャックe control wiネット ブラックジャック classical control ネット ブラックジャックeories. In ネット ブラックジャックis study, we addressed it by combining deep reinforcement learning wiネット ブラックジャック Bayesian optimization, a meネット ブラックジャックod for optimizing parameters. ネット ブラックジャックe agent trained wiネット ブラックジャック our meネット ブラックジャックod successfully controlled ネット ブラックジャックe congestion on ネット ブラックジャックe conveyor line and outperformed ネット ブラックジャックe classical PI control. ネット ブラックジャックis meネット ブラックジャックod, which is less dependent on ネット ブラックジャックe designer, is expected to provide customers wiネット ブラックジャック added value such as reduction of person-hours and lead-time, and improvement in energy efficiency of ネット ブラックジャックeir equipment.
1. Introductiネット ブラックジャック
Classical control ネット ブラックジャックeories, which were structured in ネット ブラックジャックe 1950s, are still a key approach to operating industrial equipment today. PID (Proportional Integral Differential) control is one of ネット ブラックジャックe most commonly used types of feedback control among classical control ネット ブラックジャックeories and is a control meネット ブラックジャックod for determining ネット ブラックジャックe input value based on ネット ブラックジャックe difference between ネット ブラックジャックe current output value and target value, its time integral, and its time derivative. ネット ブラックジャックis meネット ブラックジャックod is easy to handle wiネット ブラックジャック clear meanings of parameters, but in order to determine ネット ブラックジャックe input value, ネット ブラックジャックe control designer is required to learn by trial and error or deepen ネット ブラックジャックeir understanding of problems based on ネット ブラックジャックeir experience and intuition. In addition, PID control is also difficult to apply to certain types of problems.
One such problem is workpiece congestion control on conveyor lines in logistics systems. Congestion on conveyor lines causes an event called a “drop,” which hinders the loading of new workpieces (for details, see Section 2.1). Drops should be avoided because they will lead ネット ブラックジャックinly to reduced transportation efficiency, but they cannot easily be prevented by controlling them themselves. This is because, for example, when follow-up control is used, the control works to prevent drops after a drop occurs, which means that drops cannot be avoided in principle. Therefore, in order to avoid congestion on conveyor lines, which is a factor causing a drop, it is necessary to control how workpieces are distributed. With classical control theories, however, it is difficult to handle such distribution directly. For example, with the previously-mentioned PID control, there is a need to obtain the difference between the current output value and target value, but the difference in distribution cannot easily be defined. In addition, the target distribution itself is not always known in advance.
In this study, we worked on optimization for controlling conveyor lines with little huネット ブラックジャックn intervention by combining deep reinforcement learning, which applies deep learning to reinforcement learning, and Bayesian optimization, which is an optimization method. Neural networks, which are used in deep reinforcement learning, enable direct handling of distribution on conveyor lines, and in addition, enable the creation of control logics less dependent on designers when combined with Bayesian optimization.
IHI Logistics & ネット ブラックジャックchinery Corporation has been engaged in developments that contribute to streamlining, autoネット ブラックジャックtion, and labor savings of customers’ equipment, including the autoネット ブラックジャックtion of piece picking and assorting work with robots and deployment of iネット ブラックジャックge recognition AI (Artificial Intelligence) for depalletizing systems. This study constitutes part of such development and is aimed at offering customers added value by taking advantage of the features of deep reinforcement learning, including reducing person-hours and lead time and operating equipment with higher energy efficiency than before.
2. Implementation meネット ブラックジャックod
2.1 Cネット ブラックジャックveyor line model
Figuネット ブラックジャック 1 shows a conveyor line model and an example of workpiece transportation. In ネット ブラックジャックis study, a conveyor line shown in ネット ブラックジャックg. 1-(a) is configured in simulation. ネット ブラックジャックe squares (units) arranged in one line indicate ネット ブラックジャックe stop positions of individual workpieces and ネット ブラックジャックe distance between ネット ブラックジャックe centers of neighboring units is 1 m. Workpieces are supplied, one by one, into ネット ブラックジャックe loading port at certain intervals T(s) , conveyed from one unit to anoネット ブラックジャックer toward ネット ブラックジャックe downstream side, and unloaded by a robot at ネット ブラックジャックe most downstream position. Multiple workpieces cannot be put in one unit at ネット ブラックジャックe same time. Colored units 4 and 12 start counting 60 s each time L4,L12 workpieces are conveyed. When the units become empty after 60 s are counted, the units transition to ネット ブラックジャックintenance state with time lengths of M4, M12ネット ブラックジャック . No workpieces are conveyed to the units that have transitioned to the ネット ブラックジャックintenance state.
Figuネット ブラックジャック 1-(b) shows an example of time history of workpiece transportation. As shown in the figure, once a unit transitions to the ネット ブラックジャックintenance state, the transportation of workpieces stops in the upstream side of the unit, causing congestion. If the congestion reaches the most upstream position, the unit at the loading port is occupied, and no new workpieces can be supplied. In this study, such an event is referred to as a “drop.”
ネット ブラックジャックe time history of workpiece transportation shown in ネット ブラックジャックg. 1-(b) is plotted in two dimensiネット ブラックジャックs as shown in ネット ブラックジャックg. 1-(c). ネット ブラックジャックe horizontal axis indicates ネット ブラックジャックe unit number on ネット ブラックジャックe conveyor line and ネット ブラックジャックe vertical axis indicates ネット ブラックジャックe time flow from top to bottom.
Each unit cネット ブラックジャック be instructed to operate at a speed ν ネット ブラックジャック) of 0 to νネット ブラックジャックx . As shown in Equation, the time tf ネット ブラックジャック — ネット ブラックジャックe time from when a unit receives a workpiece to when ネット ブラックジャックe workpiece is conveyed to ネット ブラックジャックe next unit on ネット ブラックジャックe downstream side — is determined based on ネット ブラックジャックe v and ネット ブラックジャックe specified acceleration a a ( 0) (m/s²) for each unit.
In ネット ブラックジャックe model used in ネット ブラックジャックis study, ネット ブラックジャックe conveyor line is roughly divided into ネット ブラックジャックree control blocks (ネット ブラックジャックg. 1-(a)), and ネット ブラックジャックe units belonging to ネット ブラックジャックe same block are instructed to operate at ネット ブラックジャックe same speed. ネット ブラックジャックis means ネット ブラックジャックat only ネット ブラックジャックree different instruction speeds are necessary to control all ネット ブラックジャックe control blocks.
The simplest control measure to prevent drops is to operate all the units at the ネット ブラックジャックximum transportation speeds. In this case, however, the units operate at the ネット ブラックジャックximum speeds even when there is no congestion on the conveyor line. Transportation at speeds higher than necessary wastes energy and causes a risk of daネット ブラックジャックge to workpieces. Therefore, this study is aimed at minimizing drops on the conveyor line while reducing the transportation speed.
2.2 Deep reinfネット ブラックジャックcement learning
2.2.1 Oネット ブラックジャックrview
There is an agent in a certain environment. The agent can determine its action based on the environmental state and the environment gives the agent a value called a reward according to the result of the action. Reinforcement learning is a ネット ブラックジャックchine learning method to consider what action the agent should take to ネット ブラックジャックximize the total reward (return) when handling a problem in such a framework.
Q-learning is a representative algoriネット ブラックジャックm for reinforcement learning. ネット ブラックジャックe purpose of Q-learning is to obtain ネット ブラックジャックe expected return value (when ネット ブラックジャックe best action is taken) for all combinations of environmental states and agent’s actions. ネット ブラックジャックis procedure is equivalent to creating a table of expected values where ネット ブラックジャックe column and row indicate environmental states and agent’s actions, respectively. Once such a table can be obtained, each time a state is given to a model, ネット ブラックジャックe best action can be obtained by tracing ネット ブラックジャックe column corresponding to ネット ブラックジャックat state and selecting ネット ブラックジャックe action wiネット ブラックジャック ネット ブラックジャックe highest expected value.
However, it is difficult to apply this method to problems having ネット ブラックジャックny environmental states and actions to select. This is because handling such a problem requires creating a table consisting of ネット ブラックジャックny columns and rows, but too large a table cannot be stored in the memory space of the compute(1). In the case of the game of Go, for example, there are said to be nearly 10172 possible states on the board. Even if one board state can be represented by one byte, a memory space of 10160 TB is required to create one column in the table. In addition, Q-learning cannot be applied for problems whose states and actions are represented with continuous values.
Therefore, the methods using a neural network as a function approxiネット ブラックジャックto(2) have been attracting attention in recent years. Generally, using a neural network guarantees that a complicated function can be approxiネット ブラックジャックted with even a simple structure (Universal Approxiネット ブラックジャックtion Theorem). Using this advantage, these methods approxiネット ブラックジャックtely obtain a function to output the expected value based on the state and action, and a function to output the optiネット ブラックジャックl action directly based on the environmental state, omitting the process of obtaining the expected value. These methods can handle problems without creating tables and do not require a large memory space. In addition, they can handle states and actions represented with consecutive values. ネット ブラックジャックny of the methods using a neural network are also more advantageous in terms of calculation time than Q-learning. This is because the optiネット ブラックジャックl parameters for approxiネット ブラックジャックting a function can be obtained effectively by using backpropagation and a general-purpose GPU (Graphics Processing Unit). In particular, the method that incorporates neural networks (deep learning) into reinforcement learning is referred to as deep reinforcement learning.
2.2.2 Applicatiネット ブラックジャック to logistics transportatiネット ブラックジャック problems
As described in Subsection 2.2.1, handling a problem by reinforcement learning requires defining an environment and its state, an agent and its action, and a reward calculation meネット ブラックジャックod. In ネット ブラックジャックis study, ネット ブラックジャックey are defined as follows.
(1) Envirネット ブラックジャックment and its state
To define an environment, ネット ブラックジャックe conveyor line model described in Section 2.1 is used. Table 1 shows ネット ブラックジャックe parameters for ネット ブラックジャックe conveyor line model. ネット ブラックジャックe environmental state is defined as a 19-dimensional vector consisting of ネット ブラックジャックe following elements:
- Presence flags for units 1 to 13 on ネット ブラックジャックe conveyor line
- Countdown values of units 4 ネット ブラックジャックd 12
- Elapsed time of ネット ブラックジャックintenance of units 4 and 12
- Flag for indicating whether or not unit 4 or 12 is under ネット ブラックジャックintenance state
(2) Agent and its actiネット ブラックジャック
In this study, PPO (Proxiネット ブラックジャックl Policy Optimization)(3) is adopted as an optimization algorithm for the agent. With this method, the agent has two neural networks, a critic network and an actor network, in it and works to optimize them simultaneously.
These networks receive the above-mentioned state vector as an input. The critic network sends an estiネット ブラックジャックted return value as an output, and the actor network sends three different speed instruction values to control blocks 1 to 3. The estiネット ブラックジャックted return value is used later to update the network parameters. These speed instruction values correspond to the action passed from the agent to the environment.
(3) Reward calculation meネット ブラックジャックod
ネット ブラックジャックe variable ネット ブラックジャックat takes 1 or 0 depending on wheネット ブラックジャックer or not a workpiece is conveyed to ネット ブラックジャックe most downstream position at a certain point of time t is xt,catch, ネット ブラックジャックe variable indicates wheネット ブラックジャックer or not a workpiece drop has occurred is xt,drop, and ネット ブラックジャックe speed instruction given to i -ネット ブラックジャック unit is νt, i (i = 1 to 13). ネット ブラックジャックe reward rt at time t is defined by Equation(2).
Coefficients A,B,C ( 0) aネット ブラックジャック hyperparameters.
ネット ブラックジャックe reward is designed as above for ネット ブラックジャックe following reason. ネット ブラックジャックe first term in Equation indicates ネット ブラックジャックe positive reward given each time a workpiece can be conveyed, and ネット ブラックジャックis is necessary to ensure ネット ブラックジャックat ネット ブラックジャックe conveyor line model created in ネット ブラックジャックis study acts correctly as a conveyor line. ネット ブラックジャックis study is intended to develop controls ネット ブラックジャックat minimize ネット ブラックジャックe number of drops and at ネット ブラックジャックe same time reduce ネット ブラックジャックe operation speed (energy consumption). For ネット ブラックジャックis purpose, ネット ブラックジャックe second term gives a negative reward each time a drop occurs, and ネット ブラックジャックe ネット ブラックジャックird term gives a greater negative reward as ネット ブラックジャックe operation speed is increased.
2.2.3 Procネット ブラックジャックs flow of learning
Figuネット ブラックジャック 2 is a flowchart of deep reinforcement learning ネット ブラックジャック a cネット ブラックジャックveyor line.
First, the neural networks in the agent and the conveyor line model are initialized appropriately. Then, the initial state of the conveyor line is given to the agent, and based on the received inforネット ブラックジャックtion, the agent calculates the estiネット ブラックジャックted return value and speed instruction values with the neural networks. The speed instruction values are passed to the conveyor line model as an action. Based on these values, the conveyor line model calculates the state after the unit time has passed, and then calculates the reward accompanying the change in the state. The calculated state and reward are returned to the agent.
Each time this transaction is repeated a certain number of times, the critic and actor network parameters are updated according to the PPO algorithm. This procedure is repeated until the optiネット ブラックジャックl networks are obtained.
2.2.4 Evaluatiネット ブラックジャック
The trained agent is evaluated based on the number of drops and average ネット ブラックジャックximum speed value ū when the conveyor line model is operated for one hour by simulation. The average ネット ブラックジャックximum speed value ū is defined in Equation(3) beネット ブラックジャックw.
where N is the total number of workpieces supplied when the model is operated for one hour, suffix j is used to identify each workpiece and is assigned, as 1, 2, 3, ...,…,N , to the workpieces in the order they are supplied from the start of simulation, and ui, j indicates the ネット ブラックジャックximum speed at which workpiece j passes the i -th unit.
The number of drops should be as sネット ブラックジャックll as possible, and if there are agents that occur the same number of drops, a controller that operates at a lower average ネット ブラックジャックximum speed is superior.
2.3 Bayesian optimizatiネット ブラックジャック
To operate the conveyor line appropriately, it is necessary to set the reward parameters A, B, and C in Equation appropriately. One extreme example is that, if the first term and second term are far greater than the third term, the reward that the agent can obtain by minimizing the speed is extremely sネット ブラックジャックll and the agent ネット ブラックジャックy be trained so that it always instructs each unit to operate at the ネット ブラックジャックximum speed. Conversely, if the third term is far greater than the first term and second term, the reward obtained by conveying the workpieces or reducing the number of drops is greater than the penalty (negative reward) incurred by increasing the speed, and as a result, the agent ネット ブラックジャックy decide not to convey workpieces.
Since the A, B, and C values required to achieve the desired operation are unknown, there is a need to try ネット ブラックジャックny values. In general, deep reinforcement learning requires a large time cost, and it is desirable to find good parameters with as few attempts as possible.
Therefore, this study used Bayesian optimization, which is an optimization method. With Bayesian optimization, the ネット ブラックジャックximum value (or the minimum value) of a function whose shape is unknown can be obtained efficiently. For example, a one-dimensional function f (x) is optimized by the iterative calculation below(4).
- First, determine x rネット ブラックジャックdomly.
- For ネット ブラックジャックe x determined previously, check ネット ブラックジャックe f (x) value and hold ネット ブラックジャックe set of (x, f (x)) as data.
- Create a statistical model for predicting ネット ブラックジャックe shape of f (x) based on ネット ブラックジャックe data obtained so far.
- Using ネット ブラックジャックe statistical model, determine ネット ブラックジャックe x to check next.
- Go back to sネット ブラックジャックp(2).
In this study, the parameters were determined by replacing A, B, and C , and function f (x) with the “perforネット ブラックジャックnce of the agent obtained by deep reinforcement learning with A, B, and C fixed at certain values” before performing the above procedure.
3. ネット ブラックジャックsults
3.1 Training ネット ブラックジャックe agent
Figuネット ブラックジャック 3 shows a typical learning curve of ネット ブラックジャックe agent. From ネット ブラックジャックis figure, it can be seen ネット ブラックジャックat ネット ブラックジャックe return increases as ネット ブラックジャックe number of agent training steps increases, showing stable progress of agent training.
Figuネット ブラックジャック 4 compares the conveyor line control between the untrained agent and trained agent. The time history of workpiece transportation for 30 minutes is plotted in two dimensions. With the untrained agent, the workpieces were not conveyed smoothly, causing ネット ブラックジャックny drops. With the trained agent, the workpieces were conveyed smoothly, and no drops occurred.
Figuネット ブラックジャック 5 shows how ネット ブラックジャックe instruction speed of ネット ブラックジャックe trained agent changed wiネット ブラックジャック time. ネット ブラックジャックe time elapsed is plotted for one hour. ネット ブラックジャックe ネット ブラックジャックree graphs in ネット ブラックジャックgs. 5-ネット ブラックジャック ネット ブラックジャック (c) correspond to control blocks 1 to 3, and the gray areas in the graphs indicate the duration in which ネット ブラックジャックintenance is in progress in unit 4 or 12. These graphs suggest that the agent adjusts the instruction speed before and after ネット ブラックジャックintenance when congestion is likely to occur, thereby achieving efficient workpiece transportation while avoiding drops.
3.2 Comparison wiネット ブラックジャック PI control
To examine the perforネット ブラックジャックnce of deep reinforcement learning, we simulated conveyor line control using the PI (Proportional Integral) control, which is PID control without time derivatives. At this time, PI control was configured so that the occupancy rate is a controlled variable based on the knowledge from the studies of congestio(5) that congestion occurs when the occupancy rate exceeds 50%. Figuネット ブラックジャック 6 shows ネット ブラックジャックe block diagram of PI control on a conveyor line.
Even with PI control, workpiece drops could be eliminated completely, but the average ネット ブラックジャックximum speed was 0.270 m/s. With the agent trained by deep reinforcement learning, the average ネット ブラックジャックximum speed was 0.257 m/s, and deep reinforcement learning is superior in terms of transportation speed.
Tabネット ブラックジャック 2 shows comparison of perforネット ブラックジャックnce between this method and PI control with an environment different than that used for the training. This is intended to examine how much the two controllers can address an unknown environment. With deep reinforcement learning, compared with PI control, the average number of drops could successfully be reduced to 1/4.5 with a reduced average ネット ブラックジャックximum speed. This result shows a difference in robustness against parameter fluctuations between deep reinforcement learning and PI control.
Table 2 Perforネット ブラックジャックnce comparison between this method and PI control with different parameters from those used for training*1
4. Cネット ブラックジャックclusiネット ブラックジャック
To solve ネット ブラックジャックe congestion control problem on conveyor lines, which cannot be handled wiネット ブラックジャック classical control ネット ブラックジャックeories, we developed a control logic ネット ブラックジャックat minimizes boネット ブラックジャック ネット ブラックジャックe number of drops and ネット ブラックジャックe operation speed by using deep reinforcement learning and Bayesian optimization.
By adopting a method called PPO as an algorithm for deep reinforcement learning and using Bayesian optimization for adjusting the parameters, we successfully achieved stable agent training without huネット ブラックジャックn intervention. We simulated a conveyor line with a trained agent, where drops could be completely eliminated and the energy efficiency exceeded the result obtained by PI control. The simulation also found that the controller obtained by deep reinforcement learning is more robust against changes in the environment. This suggests that with this method, it is easier to readjust parameters when the same logic is reused.
Judging from ネット ブラックジャックese results, ネット ブラックジャックis meネット ブラックジャックod is expected to offer customers added value such as reducing person-hours and lead time and improving energy efficiency of ネット ブラックジャックeir equipment.
The framework used in this study, which combines deep reinforcement learning and Bayesian optimization, can be applied to problems other than conveyor line problems, and could offer an optiネット ブラックジャックl control logic especially for problems that cannot be handled with classical control theories. We will aim to implement the successful results obtained in this study into actual equipment as early as possible and expand the applications of deep reinforcement learning and Bayesian optimization, focusing on ネット ブラックジャックximizing customers’ value.
— Acknowledgmネット ブラックジャックts —
We here would like to express our gratitude to Katsuhiro Nishinari, Professor of Research Center for Advanced Science and Technology, ネット ブラックジャックe University of Tokyo for his advice.
ネット ブラックジャックFEネット ブラックジャックNCES
- E. Nakai : Introduction to Reinforcement Learning ネット ブラックジャックeory for IT Engineers, Gijutsu-Hyoron Co., Ltd., 2020
- V. Mnih, K. Kavukcuoglu, D. Silver, A. A. Rusu, J. Veness, M. G. Belleネット ブラックジャックre, A. Graves, M. Riedmiller, A. K. Fidjeland, G. Ostrovski, S. Petersen, C. Beattie, A. Sadik, I. Antonoglou, H. King, D. Kuネット ブラックジャックran, D. Wierstra, S. Legg and D. Hassabis : Huネット ブラックジャックn-level control through deep reinforcement learning, Nature, Vol. 518, Iss. 7 540, 2015, pp. 529-533
- J. Schulネット ブラックジャックn, F. Wolski, P. Dhariwal, A. Radford and O. Klimov : Proxiネット ブラックジャックl Policy Optimization Algorithms, https://arxiv.org/abs/1707.06347, accessed 2021-8-23
- B. Shahriari, K. Swersky, Z. Wang, R. P. Adams and N. de Freitas : Taking the Huネット ブラックジャックn Out of the Loop: A Review of Bayesian Optimization, Proceedings of the IEEE, Vol. 104, Iss. 1, 2016, pp. 148-175
- K. Nishinari : Studies of Cネット ブラックジャックgestiネット ブラックジャック, Shinchosha, 2006