AI, ML
강화학습(Reinforcement learning)
Moses_
2021. 5. 29. 20:07
728x90
상/벌의 반복을 통해 학습
지도학습 : 배움 = 강화학습 : 경험
* 게임 실력자가 되는 과정
관찰의 결과에 따라서 어떤 상태에서 어떻게 행동해야 더 많은 상을 받고 더 적은 벌을 받을 수 있는지를 알게 됨
= 판단력이 강화된 것
판단에 따라서 행동을 하게 되고 그 행동은 게임에 변화를 주게 됨
→ 이 과정을 반복하면 판단력이 점점 강화됨
* 강화학습 과정
게임 = 환경(environment)
게이머 = 에이전트(agent)
상태 = state
상/벌 = 보상(reward)
판단 = 정책(policy)
행동 = action
강화학습의 목적 : 상태에 따라서 더 많은 보상을 받을 수 있는 행동을 에이전트가 할 수 있도록 하는 정책을 만드는 것
강화학습 사례 : http://bit.ly/ml1-regression-list