본문 바로가기

강의/Udacity ML

3.8 강화학습과 적용

SMALL

강화학습 소개

강화학습(RL)에서는 에이전트가 환경과 상호작용하면서 받는 피드백을 바탕으로 목표를 달성하도록 교육받는다. 각 작업에 대한 보상으로 숫자를 수집한다. 에이전트가 목표를 달성하는 데 도움이 되는 작업은 숫자가 많을수록 인센티브가 부여된다. 도움이 되지 않는 행동은 보상이 적거나 아예 없는 결과를 낳는다.

시간 경과에 따른 총 누적 보상을 극대화하는 학습 목표를 통해 에이전트는 시행착오를 통해 유익한 행동을 상황에 매핑하는 방법을 학습한다. 에이전트가 더 잘 훈련될수록 목표를 달성하는 작업을 더 효율적으로 선택할 수 있습니다.

 

강화 학습 응용 프로그램

강화학습은 실제 문제 해결을 위해 다양한 분야에서 활용되고 있다. 장기 목표의 순차적 문제를 해결하는 데 특히 유용하다.


게임 적용

- 알파고 제로 소프트웨어는 바둑을 마스터했다.

- 아타리 클래식 비디오 게임은 강화학습 소프트웨어를 만들고 테스트하기 위한 학습도구로 사용된다

- 스타크래프트2는 실시간 전략 비디오 게임으로, 알파스타 소프트웨어가 마스터했다.

 

게임 레벨 디자인

게임 레벨 디자인은 게임의 각 스테이지가 얼마나 복잡한지를 결정하며 게임을 하는 것이 얼마나 지루하고, 좌절스럽고, 재미있는지에 직접적으로 영향을 미친다.

비디오 게임 회사들은 그래프로 시각화할 수 있는 데이터를 수집하기 위해 게임을 반복해서 하는 에이전트를 만든다. 이 시각적 데이터를 통해 설계자는 플레이어가 얼마나 쉽게 또는 어렵게 진전을 이룰 수 있는지 신속하게 평가할 수 있다. 이를 통해 설계자는 지루함과 좌절감 사이의 "적합한" 균형을 더 빠르게 찾을 수 있다.

 

풍력 에너지 최적화

물리적 장치의 로봇 공학에 동력을 공급하기 위해 사용될 수 있다. 풍력 발전소에서 여러 개의 터빈이 함께 작동할 때, 바람을 먼저 받는 전방의 터빈은 뒤에 있는 터빈에 좋지 않은 바람 조건을 발생시킬 수 있다. 이것은 웨이크 난류라고 불리며 포착되어 전력으로 변환되는 에너지의 양을 줄인다. 

전 세계의 풍력에너지 조직은 강화 학습을 사용하여 해결책을 테스트한다. 이들 모델은 터빈 날개의 각도를 변경하여 변화하는 바람 조건에 대응한다. 업스트림 터빈이 감속하면 다운스트림 터빈이 더 많은 에너지를 포착하는 데 도움이 된다.


그 외

산업 로봇, 사기 탐지, 주식 거래, 자율주행

 


용어

에이전트

교육 중인 소프트웨어. 그것은 목표에 도달하기 위해 환경에서 결정을 내린다.

 

환경

에이전트가 상호 작용하는 주변 영역

 

보상

주어진 상태에서 수행하는 각 작업에 대해 에이전트에 피드백이 제공된다. 이 피드백은 수치상의 보상이다.

 

액션

모든 주에 대해 에이전트는 목표를 달성하기 위한 조치를 취해야 합니다.

SMALL