Welcome to Bin Zhang’s Personal Homepage!

I am an Assistant Professor/Postdoctoral Fellow at the Institute of Automation, Chinese Academy of Sciences (CASIA, 中国科学院自动化研究所), working in the Key Laboratory of Cognition and Decision Intelligence for Complex Systems. Advised by Prof. Guoliang Fan (范国梁), my research spans Reinforcement Learning (RL), Multi-agent Systems, and Large Language Model (LLM) Agents, with a focus on:

Developing adaptive AI algorithms for multi-agent cooperation/competition in complex environments.
Advancing LLM agents’ collaborative reasoning and tool-learning capabilities for autonomous systems.

I also work closely with Prof. Zhiwei Xu (徐志伟) (Assistant Professor, Shandong University). And I have published 30+ papers at the international AI conferences.

If you are interested with my experience or research. Plese feel free to contact with me via Email or Wechat.

🔥 News

2026.06: 🎉🎉 LeanRefiner has been accepted to AI for Math Workshop @ ICML 2026!
2026.05: 🎉🎉 SQLBench and LLaMAC have been accepted to CASE 2026!
2026.05: 🎉🎉 SIDIFF has been accepted to RLC 2026!
2026.04: 🎉🎉 One paper has been accepted to IJCAI 2026!
2026.02: 🎉🎉 One paper has been accepted to ICAPS 2026!
2026.01: 🎉🎉 Two papers have been accepted to ICLR 2026!
2025.12: 🎉🎉 One paper has been accepted to AAMAS 2026!
2025.11: 🎉🎉 One paper has been accepted to AAAI 2026!
2025.05: 🎉🎉 One paper has been accepted to ICML 2025!
2025.04: 🎉🎉 One paper has been accepted to IJCNN 2025!
2025.02: 🎉🎉 One paper has been accepted to TMLR & ICLR 2025 Workshop on DATA-FM!
2025.01: 🎉🎉 One paper with co-first authorship has been accepted to DASFAA 2025!
2024.12: 🎉🎉 One paper has been accepted to AAMAS 2025!
2024.12: 🎉🎉 One paper has been accepted to AAAI 2025!
2024.10: 🎉🎉 One paper with co-first authorship has been accepted to EMNLP 2024 Industry Track!
2024.08: 🎉🎉 Two papers have been accepted to ICONIP 2024!
2024.05: 🎉🎉 One first-author paper has been accepted to ICML 2024!
2024.04: 🎉🎉 One paper has been accepted to IJCAI 2024!
2024.03: 🎉🎉 One paper has been accepted to IJCNN 2024!
2024.02: 🎉🎉 One first-author paper has been accepted to ICLR 2024 Workshop on LLM Agents!
2024.02: 🎉🎉 One paper with co-first authorship has been accepted to ICLR 2024 Workshop on LLM Agents!
2023.12: 🎉🎉 Two papers have been accepted to AAMAS 2024!
2023.12: 🎉🎉 One paper has been accepted accepted to ICASSP 2024!
2023.09: 🎉🎉 One paper has been accepted to NeurIPS 2023!
2023.04: 🎉🎉 One first-author paper has been accepted to IJCAI 2023!

📖 Experience

2025.07 - Present Assistant Professor in Institute of Automation, Chinese Academy of Sciences
2020.09 - 2025.06 Ph.D. in Institute of Automation, Chinese Academy of Sciences
2016.09 - 2020.06 B.E. in School of Control Science and Engineering, Shandong University

💬 Research Interest

Reinforcement Learning
Multi-agent Coordination
LLM agents (Tool Learning, Text-to-SQL, Text-based Game)

📝 Publications

NIPS 2023 Workshop

Tptu: Task planning and tool usage of large language model-based ai agents

Jingqing Ruan, Yihong Chen, Bin Zhang, Zhiwei Xu, Tianpeng Bao, Guoqing Du, Shiwei Shi, Hangyu Mao, Ziyue Li, Xingyu Zeng, Rui Zhao

Project

We propose a structured framework tailored for LLM-based AI Agents and discuss the crucial capabilities necessary for tackling intricate problems.

CASE 2026

Benchmarking the text-to-sql capability of large language models: A comprehensive evaluation

Bin Zhang, Yuxiao Ye, Guoqing Du, Xiaoru Hu, Zhishuai Li, Sun Yang, Chi Harold Liu, Rui Zhao, Ziyue Li, Hangyu Mao

Project

We evaluate LLMs through five Text-to-SQL related tasks, reveal performance differences and suggest task-specific optimization strategies.

AI for Math Workshop @ ICML 2026 LeanRefiner: Agentic Global-to-Local Optimization of Lean Proofs. Tian Cui, Bin Zhang, Changwei Wang, Zhiwei Xu, Zeyang Liu.
CASE 2026 Controlling Large Language Model-based Agents for Large-Scale Decision-Making: An Actor-Critic Approach. Bin Zhang, Hangyu Mao, Jingqing Ruan, et al.
RLC 2026 Beyond Local Views: Global State Inference with Diffusion Models for Cooperative MARL. Zhiwei Xu, Hangyu Mao, Nianmin Zhang, Shengtao Zhang, Xin Xin, Pengjie Ren, Dapeng Li, Bin Zhang, Guoliang Fan, Zhumin Chen, Changwei Wang, Jiangjin Yin
IJCAI 2026 From Traits to Roles: Consensus-Guided Composition of Orthogonal Experts for Cooperative MARL. Yewei Zhou, Bin Zhang, Ying Zhou, Xuri Ge, Dapeng Li, Hangyu Mao, Pengjie Ren, Zhiwei Xu
ICAPS 2026 QSIM: Mitigating Overestimation in Multi-Agent Reinforcement Learning via Action Similarity Weighted Q-Learning. Yuanjun Li, Bin Zhang, Hao Chen, Zhouyang Jiang, Dapeng Li, Zhiwei Xu
ICLR 2026 Peak-Return Greedy Slicing: Subtrajectory Selection for Transformer-based Offline RL. Zhiwei Xu, Miduo Cui, Dapeng Li, Zhihao Liu, Haifeng Zhang, Hangyu Mao, Guoliang Fan, Bin Zhang
ICLR 2026 Towards Better Branching Policies: Leveraging the Sequential Nature of Branch-and-Bound Tree. Ce Zhang, Bin Zhang, Guoliang Fan
AAMAS 2026 Quality-Diversity for Multi-Agent Reinforcement Learning. Hao Chen, Pengyi Li, Bin Zhang, Hu Fu, Zhiwei Xu, Ce Zhang, Xinyue Lu, Guoliang Fan
AAAI 2026 Graph of Verification: Structured Verification of LLM Reasoning with Directed Acyclic Graphs. Jiwei Fang, Bin Zhang, Changwei Wang, Jin Wan, Zhiwei Xu
ICML 2025 Reidentify:Context-AwareIdentityGenerationforContextual Multi-AgentReinforcementLearning. Zhiwei Xu, Kun Hu, Xin Xin, Weiliang Meng, Yiwei Shi, Hangyu Mao, Bin Zhang, Dapeng Li, Jiangjin Yin
IJCNN 2025 Enhancing Branching Policy Generalization through Self-Supervised Adversarial Instance Augmentation. Ce Zhang, Bin Zhang, Guoliang Fan
TMLR QPO: Query-dependent Prompt Optimization via Multi-Loop Offline Reinforcement Learning.Yilun Kong, Hangyu Mao, Zhao Qi, Bin Zhang, Jingqing Ruan, Li Shen, Yongzhe Chang, Xueqian Wang, Rui Zhao, Dacheng Tao
DASFAA 2025 PET-SQL: A Prompt-enhanced Two-stage Text-to-SQL Framework with Cross-consistency. Zhishuai Li, Xiang Wang, Jingjing Zhao, Sun Yang, Guoqing Du, Xiaoru Hu, Bin Zhang, Yuxiao Ye, Ziyue Li, Rui Zhao, Hangyu Mao
AAMAS 2025 Unveiling Decision Intention for Cooperative Multi-Agent Reinforcement Learning. Zeren Zhang, Zhiwei Xu, Guangchong Zhou, Dapeng Li, Bin Zhang, Guoliang Fan
AAAI 2025 Efficient Communication in Multi-Agent Reinforcement Learning with Implicit Consensus Generation. Dapeng Li, Na Lou, Zhiwei Xu, Bin Zhang, Guoliang Fan
ICML 2024 Stackelberg Decision Transformer for Asynchronous Action Coordination in Multi-Agent Systems. Bin Zhang, Hangyu Mao, Lijuan Li, Zhiwei Xu, Dapeng Li, Rui Zhao, and Guoliang Fan
IJCAI 2024 PTDE: Personalized Training with Distilled Execution for Multi-Agent Reinforcement Learning. Yiqun Chen, Hangyu Mao, Jiaxin Mao, Shiguang Wu, Tianle Zhang, Bin Zhang, Wei Yang, Hongxing Chang
ICLR 2024 Workshop on LLM Agents Controlling Large Language Model-based Agents for Large-Scale Decision-Making: An Actor-Critic Approach. Bin Zhang, Hangyu Mao, Jingqing Ruan, et al.
EMNLP 2024 Industry Track Boosting Task Planning and Tool Usage of Large Language Model-based Agents in Real-world Systems. Yilun Kong, Jingqing Ruan, Yihong Chen, Bin Zhang, et al.
IJCNN 2024 SGCD: Subgroup Contribution Decomposition for Multi-Agent Reinforcement Learning. Hao Chen, Bin Zhang, Guoliang Fan.
AAMAS 2024 PDiT: Interleaving Perception and Decision-making Transformers for Deep Reinforcement Learning. Hangyu Mao, Rui Zhao, Ziyue Li, Zhiwei Xu, Hao Chen, Yiqun Chen, Bin Zhang, et al.
AAMAS Extended Abstract 2024 From Explicit Communication to Tacit Cooperation:A Novel Paradigm for Cooperative MARL. Dapeng Li, Zhiwei Xu, Bin Zhang, and Guoliang Fan.
ICASSP 2024 Adaptive Parameter Sharing for Multi-Agent Reinforcement Learning. Dapeng Li, Na Lou, Bin Zhang, Zhiwei Xu, Guoliang Fan
ICONIP 2024 Decentralized Extension for Centralized Multi-Agent Reinforcement Learning via Online Distillation. Zeren Zhang, Bin Zhang, Guangchong Zhou, Dapeng Li, Zhiwei Xu and Guoliang Fan
ICONIP 2024 GATE: Guided Contrastive State Space for Multi-Agent Reinforcement Learning. Hao Chen, Bin Zhang and Guoliang Fan
NeurIPS 2023 Dual Self-Awareness Value Decomposition Framework without Individual Global Max for Cooperative MARL. Zhiwei Xu, Bin Zhang, Dapeng Li, Guangchong Zhou, Zeren Zhang, Guoliang Fan
IJCAI 2023 Inducing Stackelberg Equilibrium through Spatio-Temporal Sequential Decision-Making in Multi-Agent Reinforcement Learning. Bin Zhang, Lijuan Li, Zhiwei Xu, Dapeng Li, Guoliang Fan
IJCNN 2023 SEA: A Spatially Explicit Architecture for Multi-Agent Reinforcement Learning. Dapeng Li, Zhiwei Xu, Bin Zhang, Guoliang Fan
AAAI 2023 Consensus Learning for Cooperative Multi-Agent Reinforcement Learning. Zhiwei Xu, Bin Zhang, Dapeng Li, Zeren Zhang, Guangchong Zhou, Hao Chen, Guoliang Fan
AAAI 2023 HAVEN: Hierarchical Cooperative Multi-Agent Reinforcement Learning with Dual Coordination Mechanism. Zhiwei Xu, Yunpeng Bai, Bin Zhang, Dapeng Li, and Guoliang Fan
NeurIPS 2022 Mingling Foresight with Imagination: Model-Based Cooperative Multi-Agent Reinforcement Learning. Zhiwei Xu, Dapeng Li, Bin Zhang, Yuan Zhan, Yunpeng Bai, and Guoliang Fan
ICONIP 2022 Multi-Agent Hyper-Attention Policy Optimization. Bin Zhang, Zhiwei Xu, Yiqun Chen, Dapeng Li, Yunpeng Bai, Guoliang Fan, and Lijuan Li
ICONIP 2022 Efficient Policy Generation in Multi-Agent Systems via Hypergraph Neural Network. Bin Zhang, Yunpeng Bai, Zhiwei Xu, Dapeng Li, and Guoliang Fan
IJCNN 2022 Cooperative Multi-agent Reinforcement Learning with Hypergraph Convolution. Yunpeng Bai, Chen Gong, Bin Zhang, Guoliang Fan, Xinwen Hou, Yu Liu
AAMAS 2022 SIDE: State Inference for Partially Observable Cooperative Multi-Agent Reinforcement Learning. Zhiwei Xu, Yunpeng Bai, Dapeng Li, Bin Zhang, and Guoliang Fan
ICONIP 2022 Learning to Coordinate via Multiple Graph Neural Networks. Zhiwei Xu, Bin Zhang, Yunpeng Bai, Dapeng Li, and Guoliang Fan

🧑‍🎨 Preprint

arXiv:2605.26646 UnityMAS-O: A General RL Optimization Framework for LLM-Based Multi-Agent Systems. Yiqun Chen, Yiqun Chen, Wei Yang, Erhan Zhang, Shijie Wang, Qi Liu, Zechun Niu, Bin Zhang, Haitao Li, Rui Li, Lingyong Yan, Jinyuan Feng, Biqing Qi, Xiaochi Wei, Yan Gao, Yi Wu, Yao Hu, Jiaxin Mao.
arXiv:2603.16215 CoMAI: A Collaborative Multi-Agent Framework for Robust and Equitable Interview Evaluation. Gengxin Sun, Ruihao Yu, Liangyi Yin, Yunqi Yang, Bin Zhang, Zhiwei Xu
arXiv:2504.12961 QLLM: Do We Really Need a Mixing Network for Credit Assignment in Multi-Agent Reinforcement Learning?. Zhouyang Jiang, Bin Zhang, Yuanjun Li, Zhiwei Xu
OpenReview Constructing Informative Subtask Representations for Multi-Agent Coordination. Guangchong Zhou, Zhiwei Xu, Bin Zhang, Dapeng Li, Zeren Zhang, Guoliang Fan
arXiv:2404.17780 Verco: Learning Coordinated Verbal Communication for Multi-agent Reinforcement Learning. Dapeng Li, Hang Dong, Lu Wang, Bo Qiao, Si Qin, Qingwei Lin, Dongmei Zhang, Qi Zhang, Zhiwei Xu, Bin Zhang, Guoliang Fan

🥇 Honors and Awards

2023, Future Star Award, SenseTime Research (Intern Top 1)
2023, Merit Student, University of Chinese Academy of Sciences
2022, Climbing Scholarship, University of Chinese Academy of Sciences
2020, Outstanding Graduates, Shandong Province
2020, Weichai Power Scholarship, Shandong University
2017-2019, National Scholarship, Ministry of Education (2 times)
2017-2020, First-class Scholarship, Shandong University (3 times)

🌠 Academic Services

Program Committee Member or Reviewer:

IEEE Transactions on Neural Networks and Learning Systems (TNNLS)
Applied Soft Computing Journal
International Conference on Learning Representations (ICLR 2024, 2025, 2026)
International Conference on Machine Learning (ICML 2024, 2025)
Annual Conference on Neural Information Processing Systems (NeurIPS 2025)
AAAI Conference on Artificial Intelligence (AAAI 2025, 2026)
International Joint Conference on Artificial Intelligence (IJCAI 2024, 2025)
International Conference on Autonomous Agents and Multiagent Systems (AAMAS 2025)
International World Wide Web Conference (WWW 2025)

💻 Internships

2023.07 - 2024.04, SenseTime Research, China.