search

Q-Learning

Học tăng cường: Agent tự học tìm đường tối ưu bằng thử và sai.

0.30
0.10
0.90

psychologyQ-Learning là gì?

Q-Learning là thuật toán Học tăng cường (Reinforcement Learning). Agent tương tác với môi trường, nhận phần thưởng và tự học chính sách tối ưu.

Q(s, a) = Giá trị ước lượng việc thực hiện hành động a tại trạng thái s.
Agent chọn hành động có Q cao nhất → Tối ưu hóa phần thưởng tổng!

tuneTham số ε, α, γ

  • exploreε (Epsilon): Xác suất khám phá ngẫu nhiên thay vì chọn nước đi tốt nhất. Giảm dần theo thời gian.
  • speedα (Learning Rate): Tốc độ cập nhật Q-table. Quá cao → không ổn định, quá thấp → học quá chậm.
  • savingsγ (Discount): Mức quan tâm đến phần thưởng tương lai. γ ≈ 1 → nhìn xa, γ ≈ 0 → chỉ tham lam ngắn hạn.

codeTip lập trình

🤖 tìm 🏆 và tránh 💀. Sau ~500 episodes, mũi tên trên lưới sẽ hội tụ thành đường đi tối ưu. Nhấn "Hiện đường đi" để xem!