Học tăng cường (Reinforcement Learning): Áp dụng trong các hệ thống ra quyết định liên tục như robot giao hàng hoặc AI giao