본문 바로가기

AI, ML

강화학습(Reinforcement learning)

728x90

상/벌의 반복을 통해 학습

지도학습 : 배움 = 강화학습 : 경험

 

* 게임 실력자가 되는 과정

관찰의 결과에 따라서 어떤 상태에서 어떻게 행동해야 더 많은 상을 받고 더 적은 벌을 받을 수 있는지를 알게 됨

= 판단력이 강화된 것

판단에 따라서 행동을 하게 되고 그 행동은 게임에 변화를 주게 됨

→ 이 과정을 반복하면 판단력이 점점 강화됨

 

* 강화학습 과정

게임 = 환경(environment)

게이머 = 에이전트(agent)

상태 = state

상/벌 = 보상(reward)

판단 = 정책(policy)

행동 = action

 

강화학습의 목적 : 상태에 따라서 더 많은 보상을 받을 수 있는 행동을 에이전트가 할 수 있도록 하는 정책을 만드는 것

 

강화학습 사례 : http://bit.ly/ml1-regression-list