1. Introduction

1.1 Reinforcement Learning

강화 학습(Reinforcement learning)은 수치적 보상 신호를 최대화하기 위해 무엇을 해야 하는지, 즉 상황을 행동에 매핑(정책)하는 방법을 배우는 것입니다.

특징:

trial-and-error search: 학습자는 어떤 행동을 취해야 하는지 지시받지 않고, 대신 행동을 시도함으로써 어떤 행동이 가장 많은 보상을 산출하는지 스스로 발견해야 합니다.
delayed reward: 행동은 즉각적인 보상뿐만 아니라 다음 상황과 그에 따른 모든 후속 보상에도 영향을 미칠 수 있습니다.

강화 학습은 기계 학습, 등반과 같이 이름이 "ing"로 끝나는 많은 주제와 마찬가지로 문제, 해당 문제에 잘 작동하는 솔루션 방법의 클래스, 그리고 이 문제와 솔루션 방법을 연구하는 분야를 동시에 의미합니다. 이 세 가지를 모두 하나의 이름으로 사용하는 것이 편리하지만, 동시에 이 세 가지를 개념적으로 분리하는 것이 중요합니다.

다른 기계학습 기법과 차별점

supervised learning: 상호 작용 문제에서는 에이전트가 행동해야 하는 모든 상황을 올바르게 나타내는 원하는 행동의 예제를 얻는 것이 종종 비현실적입니다. 미지의 영역, 즉 학습이 가장 유익할 것으로 예상되는 곳에서 에이전트는 자신의 경험으로부터 학습할 수 있어야 합니다.
unsupervised learning: 비지도 학습은 일반적으로 레이블이 지정되지 않은 데이터 모음에서 숨겨진 구조를 찾는 것에 관한 것입니다. 강화 학습이 올바른 행동의 예제에 의존하지 않기 때문에 일종의 비지도 학습이라고 생각하고 싶을 수도 있지만, 강화 학습은 숨겨진 구조를 찾는 대신 보상 신호를 최대화하려고 합니다. 에이전트의 경험에서 구조를 밝히는 것은 강화 학습에서 확실히 유용할 수 있지만, 그 자체로는 보상 신호를 최대화하는 강화 학습 문제를 해결하지 못합니다.

강화학습의 Challenge

강화 학습에서 발생하는 어려움 중 하나는, 다른 종류의 학습에서는 발생하지 않는 탐험(exploration)과 활용(exploitation) 사이의 균형을 맞추는 것입니다. 많은 보상을 얻기 위해 강화 학습 에이전트는 과거에 시도하여 보상을 효과적으로 생성하는 것으로 밝혀진 행동을 선호해야 합니다. 그러나 그러한 행동을 발견하려면 이전에 선택하지 않은 행동을 시도해야 합니다. 에이전트는 보상을 얻기 위해 이미 경험한 것을 활용해야 하지만, 미래에 더 나은 행동 선택을 하기 위해서는 탐험도 해야 합니다.

1.5 틱택토 예시 일부

1.3 Elements of Reinforcement Learning

정책(policy)은 주어진 시간에 학습 에이전트의 행동 방식을 정의합니다. 대략적으로 말하면, 정책(policy)은 환경의 인지된 상태에서 해당 상태에서 수행할 행동으로의 매핑입니다. 일반적으로 정책(policy)은 확률적일 수 있으며 각 행동에 대한 확률을 지정합니다.
보상 신호(reward signal)는 강화 학습 문제의 목표를 정의합니다. 각 시간 단계에서 환경은 강화 학습 에이전트에게 보상(reward)이라는 단일 숫자를 보냅니다. 에이전트의 유일한 목표는 장기간에 걸쳐 받는 총 보상(reward)을 최대화하는 것입니다. 따라서 보상 신호(reward signal)는 에이전트에게 좋은 이벤트와 나쁜 이벤트를 정의합니다. 보상 신호(reward signal)는 정책(policy)을 변경하는 주요 기반입니다. 정책(policy)에 의해 선택된 행동이 낮은 보상(reward)으로 이어지면, 정책(policy)은 미래에 해당 상황에서 다른 행동을 선택하도록 변경될 수 있습니다. 일반적으로 보상 신호(reward signal)는 환경의 상태와 취해진 행동의 확률적 함수일 수 있습니다.
보상 신호(reward signal)가 즉각적인 의미에서 무엇이 좋은지를 나타내는 반면, 가치 함수(value function)는 장기적으로 무엇이 좋은지를 명시합니다. 대략적으로 말하면, 상태의 가치(value)는 에이전트가 해당 상태에서 시작하여 미래에 축적할 것으로 예상되는 총 보상(reward)의 양입니다. 보상(reward)이 환경 상태의 즉각적이고 본질적인 바람직함을 결정하는 반면, 가치(value)는 뒤따를 가능성이 있는 상태와 해당 상태에서 얻을 수 있는 보상(reward)을 고려하여 상태의 장기적인 바람직함을 나타냅니다. 예를 들어, 어떤 상태는 항상 낮은 즉각적인 보상(reward)을 산출하지만, 높은 보상(reward)을 산출하는 다른 상태가 정기적으로 뒤따르기 때문에 여전히 높은 가치(value)를 가질 수 있습니다. 또는 그 반대도 마찬가지일 수 있습니다.

우리가 결정을 내리고 평가할 때 가장 중요하게 생각하는 것은 가치(value)입니다. 행동 선택은 가치(value) 판단에 따라 이루어집니다. 우리는 가장 높은 보상(reward)이 아니라 가장 높은 가치(value)의 상태를 가져오는 행동을 추구합니다. 왜냐하면 이러한 행동은 장기간에 걸쳐 우리에게 가장 많은 보상(reward)을 얻어주기 때문입니다.

강화 학습 알고리즘에서 가장 중요한 구성 요소는 가치를 효율적으로 추정하는 방법입니다. 보상(reward)은 기본적으로 환경에 의해 직접 주어지지만, 가치(value)는 에이전트가 평생 동안 만드는 관찰 시퀀스로부터 추정하고 재추정해야 합니다.
A Model is something that mimics the behavior of the environment, or more generally, that allows inferences to be made about how the environment will behave.

모델은 계획에 사용되는데, 여기서 계획(planning)이란 실제로 경험하기 전에 가능한 미래 상황을 고려하여 행동 방침을 결정하는 모든 방법을 의미합니다.

모델과 계획을 사용하는 강화 학습 문제 해결 방법은 model-based methods라고 하며, 계획과는 거의 반대로 간주되는 명시적인 시행착오 학습자인 더 간단한 model-free methods와 대조됩니다.