ecoQuỳnh Chi
searchQ-Learning
Học tăng cường: Agent tự học tìm đường tối ưu bằng thử và sai.
0.30
0.10
0.90
psychologyQ-Learning là gì?
Q-Learning là thuật toán Học tăng cường (Reinforcement Learning). Agent tương tác với môi trường, nhận phần thưởng và tự học chính sách tối ưu.
Q(s, a) = Giá trị ước lượng việc thực hiện hành động a tại trạng thái s.
Agent chọn hành động có Q cao nhất → Tối ưu hóa phần thưởng tổng!
Agent chọn hành động có Q cao nhất → Tối ưu hóa phần thưởng tổng!
tuneTham số ε, α, γ
- exploreε (Epsilon): Xác suất khám phá ngẫu nhiên thay vì chọn nước đi tốt nhất. Giảm dần theo thời gian.
- speedα (Learning Rate): Tốc độ cập nhật Q-table. Quá cao → không ổn định, quá thấp → học quá chậm.
- savingsγ (Discount): Mức quan tâm đến phần thưởng tương lai. γ ≈ 1 → nhìn xa, γ ≈ 0 → chỉ tham lam ngắn hạn.
codeTip lập trình
🤖 tìm 🏆 và tránh 💀. Sau ~500 episodes, mũi tên trên lưới sẽ hội tụ thành đường đi tối ưu. Nhấn "Hiện đường đi" để xem!
chat_bubble Bình luận (0)