Optimization of Condition-Based Maintenance Strategies via Multi-Agent Reinforcement Learning

Zhao Qianyu; Zhao Xiujie

doi:10.3969/j.issn.1007-7375.250166

Zhao Qianyu, Zhao Xiujie. Optimization of Condition-Based Maintenance Strategies via Multi-Agent Reinforcement LearningJ. Industrial Engineering Journal. DOI: 10.3969/j.issn.1007-7375.250166

Citation:

Zhao Qianyu, Zhao Xiujie. Optimization of Condition-Based Maintenance Strategies via Multi-Agent Reinforcement LearningJ. Industrial Engineering Journal. DOI: 10.3969/j.issn.1007-7375.250166

Citation:

Zhao Qianyu, Zhao Xiujie. Optimization of Condition-Based Maintenance Strategies via Multi-Agent Reinforcement LearningJ. Industrial Engineering Journal. DOI: 10.3969/j.issn.1007-7375.250166

Optimization of Condition-Based Maintenance Strategies via Multi-Agent Reinforcement Learning

Graphical Abstract

Abstract

Abstract

Multi-component systems are widely applied in aerospace, energy, and manufacturing industries, where condition-based maintenance (CBM) faces challenges of multi-objective trade-offs and coordination among agents. To address these challenges, this paper proposes a reinforcement learning method for multi-agent environments to optimize condition-based maintenance strategies. The proposed approach optimizes system maintenance cost, component health status, overall reliability, and cooperative behavior by designing a fine-grained, multi-dimensional reward mechanism that guides agent policy learning. Meanwhile, a shared policy network and an ε-greedy exploration mechanism are introduced to enhance the stability of learning and the diversity of policy exploration. On this basis, a multi-agent double deep Q-network (MA-DDQN) framework is constructed to enable information sharing and collaborative policy updating among agents. To validate the proposed method, simulation experiments are conducted in a multi-component system environment modeled by a homogeneous gamma degradation process, and the results are compared with those of traditional rule-based and independent DQN strategies. The experimental results demonstrate that the proposed method achieves approximately 10.6% improvement in final cumulative reward and reduces overall training time by about 66%, showing superior multi-objective adaptability and strong potential for engineering deployment.

FullText(HTML)

References (17)

Cited By

Turn off MathJax

Article Contents

Optimization of Condition-Based Maintenance Strategies via Multi-Agent Reinforcement Learning

Abstract

Catalog

Export File

Citation

Format

Content