João Carvalho

Research Interests

Robotic Manipulation
Learning Motion Planning
Reinforcement Learning for Robotics

Affiliation

TU Darmstadt, Intelligent Autonomous Systems, Computer Science Department

Contact

joao@robot-learning.de (preferred)
joao.mueller_carvalho@dfki.de
Room E325, Building S2|02, TU Darmstadt, FB-Informatik, FG-IAS, Hochschulstr. 10, 64289 Darmstadt
+49-6151-16-25372

João is a Postdoctoral Researcher at the Intelligent Autonomous Systems group. Previously, he obtained his Ph.D. degree from TU Darmstadt, a M.Sc. degree in Computer Science from the Albert-Ludwigs-Universität Freiburg, and completed a Master's degree in Electrical and Computer Engineering from the Instituto Superior Técnico of the University of Lisbon. His master's thesis was written under the supervision of Samuele Tosatto and explored an approach to obtain an off-policy gradient with higher sample efficiency. He has worked on several research projects, such as KoBo34 and IKIDA. His research interests are developing machine learning and reinforcement learning algorithms for robot manipulation. These include methods that leverage generative models for motion planning and grasping, reinforcement learning methods to solve contact-rich tasks like insertions, or improving policy gradient methods with variance reduction techniques.

Publications

Bib
Funk, N.; Urain, J.; Carvalho, J.; Prasad, V.; Chalvatzaki, G.; Peters, J. (submitted). ActionFlow: Equivariant, Accurate, and Efficient Policies with Spatially Symmetric Flow Matching.
Bib
Palenicek, D.; Lutter, M.; Carvalho, J.; Dennert, D.; Ahmad, F.; Peters, J. (submitted). Diminishing Return of Value Expansion Methods, Submitted to the IEEE Transaction on Pattern Analysis and Machine Intelligence (PAMI).
Bib
Holzmann, P.; Pfefferkorn, M.; Carvalho, J.; Younes, A.; Le, A.; Chalvatzaki, G; Peters, J.; Findeisen, R. (2026). Robot Path Planning via Flow Matching with Safety and Adaptivity through Predictive Control, German Robotics Conference (GRC).
Bib
Carvalho, J.; Le, A.T.; Kicki, P. ; Koert, D.; Peters, J. (2025). Motion Planning Diffusion: Learning and Adapting Robot Motion Planning with Diffusion Models, IEEE Transactions on Robotics (T-Ro), 41, pp.4881-4901.
Bib
Le, A. T.; Hansel, K.; Carvalho, J.; Watson, J.; Urain, J.; Biess, A.; Chalvatzaki, G.; Peters, J. (2025). Global Tensor Motion Planning, IEEE Robotics and Automation Letters (RA-L), and ICRA 2026 (RA-L Track), 10, 7, pp.7302-7309.
Bib
Le, A. T.; Nguyen, K.; Vu, M.N.; Carvalho, J.; Peters, J. (2025). Model Tensor Planning, Transactions on Machine Learning Research (TMLR).
Bib
Carvalho, J.; Le, A.; Jahr, P. ; Sun, Q. ; Urain, J.; Koert, D.; Peters, J. (2025). Grasp Diffusion Network: Learning Grasp Generators from Partial Point Clouds with Diffusion Models in SO(3)×R3, German Robotics Conference (GRC).
Bib
Carvalho, J. (2025). Enhancing Robot Manipulation Skills through Learning, PhD Thesis.
Bib
Le, A. T.; Nguyen, K.; Vu, M.N.; Carvalho, J.; Peters, J. (2025). Model Tensor Planning, ICRA @ RoboARCH: Robotics Acceleration with Computing Hardware and Systems.
Bib
Watson, J.; Urain, J.; Carvalho, J.; Funk, N.; Peters, J. (2025). Learning, in: Siciliano, B. (eds.), Robotics goes MOOC, pp.165--208, Springer.
Bib
Le, A. T.; Hansel, K.; Carvalho, J.; Urain, J.; Biess, A.; Chalvatzaki, G.; Peters, J. (2024). Global Tensor Motion Planning, CoRL 2024 Workshop on Differentiable Optimization Everywhere.
Bib
Funk, N.; Urain, J.; Carvalho, J.; Prasad, V.; Chalvatzaki, G.; Peters, J. (2024). ACTIONFLOW: Equivariant, Accurate, and Efficient Manipulation Policies with Flow Matching, CoRL 2024 Workshop on Mastering Robot Manipulation in a World of Abundant Data.
Bib
Funk, N.; Urain, J.; Carvalho, J.; Prasad, V.; Chalvatzaki, G.; Peters, J. (2024). ActionFlow: Efficient, Accurate, and Fast Policies with Spatially Symmetric Flow Matching, R:SS workshop: Structural Priors as Inductive Biases for Learning Robot Dynamics.
Bib
Palenicek, D.; Lutter, M.; Carvalho, J.; Peters, J. (2023). Diminishing Return of Value Expansion Methods in Model-Based Reinforcement Learning, International Conference on Learning Representations (ICLR).
Bib
Carvalho, J.; Le, A. T.; Baierl, M.; Koert, D.; Peters, J. (2023). Motion Planning Diffusion: Learning and Planning of Robot Motions with Diffusion Models, IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS).
Bib
Tosatto, S.; Carvalho, J.; Peters, J. (2022). Batch Reinforcement Learning with a Nonparametric Off-Policy Policy Gradient, IEEE Transactions on Pattern Analysis and Machine Intelligence (PAMI), 44, 10, pp.5996--6010.
Bib
Carvalho, J.; Peters, J. (2022). An Analysis of Measure-Valued Derivatives for Policy Gradients, Multi-disciplinary Conference on Reinforcement Learning and Decision Making (RLDM).
Bib
Carvalho, J.; Koert, D.; Daniv, M.; Peters, J. (2022). Adapting Object-Centric Probabilistic Movement Primitives with Residual Reinforcement Learning, 2022 IEEE-RAS 21st International Conference on Humanoid Robots (Humanoids).
Bib
Vorndamme, J.; Carvalho, J.; Laha, R.; Koert, D.; Figueredo, L.; Peters, J.; Haddadin, S. (2022). Integrated Bi-Manual Motion Generation and Control shaped for Probabilistic Movement Primitives, 2022 IEEE-RAS 21st International Conference on Humanoid Robots (Humanoids).
Bib
Carvalho, J.; Baierl, M; Urain, J; Peters, J. (2022). Conditioned Score-Based Models for Learning Collision-Free Trajectory Generation, NeurIPS 2022 Workshop on Score-Based Methods.
Bib
Carvalho, J., Tateo, D., Muratore, F., Peters, J. (2021). An Empirical Analysis of Measure-Valued Derivatives for Policy Gradients, International Joint Conference on Neural Networks (IJCNN).
Bib
Tosatto, S.; Carvalho, J.; Abdulsamad, H.; Peters, J. (2020). A Nonparametric Off-Policy Policy Gradient, Proceedings of the 23rd International Conference on Artificial Intelligence and Statistics (AISTATS).
Bib
Carvalho, J.A.C. (2019). Nonparametric Off-Policy Policy Gradient, Master Thesis.

Supervised Theses and Projects

Thesis/Project	Student(s)	Topic	Together with
MSc Thesis	Zhou, X.	Bimanual Action Flow ?	Niklas Funk
MSc Thesis	Prakash, A.	Episodic Flow RL ?
MSc Thesis	Zhang, L.	Lightning Fast Grasp and Motion Planning ?
MSc Thesis	Princisgh, M.	Learning for Planning ?	Davide Tateo, Tomasz Kucner, Matteo Luperto
MSc Thesis	Dierking, M.	Domain Randomized Deployment of Massively Parallel MPC	An Thai Le
MSc Thesis	Jahr, P.	Comparing Residual Reinforcement Learning Strategies With A Stable Vector Field Base Policy
MSc Thesis	Striebel, N.	Bimanual Robotic Manipulation through Imitation with Deep Generative Models and Expressive Representations	Niklas Funk, Michael Drolet
MSc Thesis	Sun, Q.	Grasp Diffusion Network	An Thai Le
MSc Thesis	Kappes, N.	Natural Gradient Optimistic Actor Critic
MSc Thesis	Hilt, F.	Statistical Model-Based Reinforcement Learning	Joe Watson
MSc Thesis	Keller, L.	Context-Dependent Variable Impedance Controllers With Stability Guarantees	Dorothea Koert
MSc Thesis	Herrmann, P.	6DCenterPose: Multi-object RGB-D 6D pose tracking with synthetic training data	Suman Pal
MSc Thesis	Brosseit, J.	The Principle of Value Equivalence for Policy Gradient Search
MSc Thesis	Baierl, M.	Score-Based Generative Models as Trajectory Priors for Motion Planning	Julen Urain De Jesus, An Thai Le
MSc Thesis	Hellwig, J.	Residual Reinforcement Learning with Stable Priors	Julen Urain De Jesus
MSc Thesis	Xue, C.	Task Classification and Local Manipulation Controllers	Suman Pal
MSc Thesis	Zhao, P.	Improving Gradient Directions for Episodic Policy Search
MSc Thesis	Kaemmerer, M.	Measure-Valued Derivatives for Machine Learning
BSc Thesis	Daniv, M.	Graph-Based Model Predictive Visual Imitation Learning	Suman Pal

RL:IP.SS24	Striebel, N., Mulder, A.	Reinforcement Learning of Insertion Tasks: A Comparison Between Policy Structures
RL:IP.WS23	Striebel, N., Mulder, A.	Building a Framework to Solve Insertion Tasks with Residual Reinforcement Learning in the Real World
RL:IP.SS23	Meier, H.	Model Based Multi-Object 6D Pose Estimation	Felix Kaiser, Arjun Vir Datta
RL:IP.WS21	Kappes, N., Herrmann, P.	Trust Region Optimistic Actor Critic
RL:IP.WS21	Hellwig, J., Baierl, M.	A Hierarchical Approach to Active Pose Estimation	Julen Urain De Jesus
RL:IP.SS21	Kappes, N., Herrmann, P.	Second Order Extension of Optimistic Actor Critic
RL:IP.SS21	Hellwig, J., Baierl, M.	Active Visual Search with POMDPs	Julen Urain De Jesus
RL:IP.SS21	Hilt, F., Kolf, J., Weiland, C.	Graph Neural Networks for Robotic Manipulation
RL:IP.WS20	Hilt, F., Kolf, J., Weiland, C.	Balloon Estimators for Improving and Scaling NOPG	Samuele Tosatto
RL:IP.WS20	Musekamp, D., Rettig, M.	Learning Robot Skills From Video Data	Dorothea Koert
BP.WS20	Derr, D., Nayyar, A., Cavkic, H., Kahnna, N., Vlacic, V.	Hand Gesture Recognition for Robot Control	Dorothea Koert

Research Internship	Ji Shi (ETH Zürich)	Rapid Adaptation for Contact Rich Tasks

Teaching Assistant

Lecture	Years
Computational Engineering and Robotics	SS 2020, SS 2021
Robot Learning	WS 2020
Robot Learning Integrated Project	SS 2022