728x90
상/벌의 반복을 통해 학습
지도학습 : 배움 = 강화학습 : 경험
* 게임 실력자가 되는 과정
관찰의 결과에 따라서 어떤 상태에서 어떻게 행동해야 더 많은 상을 받고 더 적은 벌을 받을 수 있는지를 알게 됨
= 판단력이 강화된 것
판단에 따라서 행동을 하게 되고 그 행동은 게임에 변화를 주게 됨
→ 이 과정을 반복하면 판단력이 점점 강화됨
* 강화학습 과정
게임 = 환경(environment)
게이머 = 에이전트(agent)
상태 = state
상/벌 = 보상(reward)
판단 = 정책(policy)
행동 = action
강화학습의 목적 : 상태에 따라서 더 많은 보상을 받을 수 있는 행동을 에이전트가 할 수 있도록 하는 정책을 만드는 것
강화학습 사례 : http://bit.ly/ml1-regression-list
'AI, ML' 카테고리의 다른 글
masterpiece (0) | 2021.08.08 |
---|---|
데이터 분석, ML/DL 모델링 후 평가 (0) | 2021.07.17 |
비지도학습(Unsupervised learning)의 사례 - 군집화, 연관, 변환 (0) | 2021.05.29 |
지도학습(Supervised learning)의 사례 - 회귀, 분류 (0) | 2021.05.29 |
머신러닝의 분류 (지도학습, 비지도학습, 강화학습) (0) | 2021.05.29 |