Mô phỏng Q-Learning (Reinforcement Learning) | Quỳnh Chi

ε (Khám phá):0.30

α (Tốc độ học):0.10

γ (Chiết khấu):0.90

psychologyQ-Learning là gì?

Q-Learning là thuật toán Học tăng cường (Reinforcement Learning). Agent tương tác với môi trường, nhận phần thưởng và tự học chính sách tối ưu.

Q(s, a) = Giá trị ước lượng việc thực hiện hành động a tại trạng thái s.
 Agent chọn hành động có Q cao nhất → Tối ưu hóa phần thưởng tổng! 

tuneTham số ε, α, γ

exploreε (Epsilon): Xác suất khám phá ngẫu nhiên thay vì chọn nước đi tốt nhất. Giảm dần theo thời gian.
speedα (Learning Rate): Tốc độ cập nhật Q-table. Quá cao → không ổn định, quá thấp → học quá chậm.
savingsγ (Discount): Mức quan tâm đến phần thưởng tương lai. γ ≈ 1 → nhìn xa, γ ≈ 0 → chỉ tham lam ngắn hạn.

codeTip lập trình

🤖 tìm 🏆 và tránh 💀. Sau ~500 episodes, mũi tên trên lưới sẽ hội tụ thành đường đi tối ưu. Nhấn "Hiện đường đi" để xem!