평균 보상
이 그래프는 에이전트가 교육 반복 중에 받는 평균 보상을 나타낸다. 평균은 교육 반복에서 모든 에피소드에서 획득한 보상을 평균하여 계산된다. 에피소드는 출발선에서 시작되어 에이전트가 트랙을 한 바퀴 도는 루프를 완료하거나 차량이 트랙을 이탈하거나 물체와 충돌할 때 끝난다.
평균 교육률
훈련 그래프는 현재 훈련의 모든 훈련 에피소드에서 에이전트가 완료한 트랙의 평균 비율을 나타낸다. 경험이 축적되는 동안 차량의 성능을 보여준다.
평균 완료율(평가)
모델이 업데이트되는 동안 기존 모델의 성능이 평가된다. 평가 그래프 라인은 평가 기간 동안 실행된 모든 에피소드에서 에이전트가 완료한 트랙의 평균 백분율이다.
베스트 모델 라인
이 라인을 사용하면 평가 중에 평균 진행률이 가장 높은 모델 반복을 확인할 수 있다. 이 반복에 대한 체크포인트가 저장된다. 체크포인트는 각 교육(정책 업데이트) 반복 후 캡처되는 모델의 스냅샷이다.
1차 y축 보상
이는 교육 반복 중에 획득한 보상을 나타낸다. 보상의 정확한 값을 읽으려면 그래프의 데이터 지점 위로 마우스를 가져가면 확인할 수 있다.
트랙 완료율 보조 y축
에이전트가 교육 반복 중에 완료한 트랙의 비율을 보여 준다.
반복 x축
교육 작업 중에 완료된 반복 횟수를 나타낸다.
보상 그래프 해석
추가 교육 필요
다음 예에서는 600번만 반복되었지만 그래프는 계속 상승하고 있다. 평가 완료율이 100%에 도달한 것은 좋은 징조이지만 아직 완전히 일치하지는 않으며, 교육 완료 그래프에는 아직 갈 길이 남아 있다. 이 보상 기능과 모델은 유망하지만 더 많은 교육 시간이 필요하다.
향상 없음
다음 예에서는 트랙 완료율이 15%를 넘지 못했으며 꽤 오랫동안(약 6000회 정도) 교육을 받았다. 이것은 좋은 징조가 아니다. 이 모델과 보상 기능은 버리고 다른 전략을 시도해 보는 것이 좋다.
잘 훈련된 모델
다음 예제 그래프에서는 평가 완료율이 100%에 도달했으며 교육 완료율이 약 100%에 도달한 것을 확인할 수 있다. 이 때 모델은 잘 교육된다. 이를 추가로 교육하면 모델이 이 트랙에 과도하게 적합하게 될 수 있다.
과부하 피하기
과적합 또는 과훈련은 기계학습에서 매우 중요한 개념이다. AWS DeepRacer를 사용하면 모델이 특정 트랙에서 너무 오래 훈련되면 문제가 될 수 있다. 좋은 모델은 사이드라인과 중앙선과 같은 도로의 특징에 기초하여 결정을 내리고 거의 모든 트랙에서 주행할 수 있어야 한다.
반면에 과잉 교육을 받은 모델은 개별 트랙에 특정한 랜드마크를 사용하여 탐색하는 법을 배운다. 예를 들어 에이전트는 배경에 고유한 모양의 풀이 보이거나 벽 모서리가 만드는 특정 각도를 볼 때 특정 방향을 돌린다. 결과 모델은 특정 트랙에서 훌륭하게 실행되지만, 각도, 텍스처 및 조명의 약간의 차이로 인해 다른 가상 트랙에서 또는 물리적 환경에서 동일한 트랙에서 성능이 떨어진다.
하이퍼 매개 변수 조정
AWS DeepRacer 콘솔의 기본 하이퍼 매개 변수는 매우 효과적이지만 교육용 하이퍼 매개 변수를 조정할 수도 있다. 하이퍼 매개 변수는 기본적으로 교육 중에 에이전트의 성능을 제어하는 교육 알고리즘의 설정 역할을 하는 변수입니다. 예를 들어, 각 단계에서 학습에 반영되는 새로운 경험의 수를 학습 속도가 제어한다는 것을 배운다.
이 보상 그래프 예에서는 교육 완료 그래프와 보상 그래프가 상하로 흔들린다. 이것은 융합할 수 없음을 시사할 수 있으며, 이는 학습 속도를 조정하는 데 도움이 될 수 있다. 주어진 노드의 현재 가중치가 0.03이고 최적의 가중치는 0.035이지만 학습 속도는 0.01로 설정되어 있다고 상상해 보자. 다음 훈련 반복은 최적 수준을 초과하여 0.04로 스윙하고, 다음 반복은 다시 0.03으로 스윙한다. 이 문제가 의심될 경우 학습 속도를 .001로 줄일 수 있다. 낮은 학습률은 학습 시간을 더 오래 걸리지만 모델의 질을 높이는 데 도움이 될 수 있다.
'강의 > Udacity ML' 카테고리의 다른 글
3.15 Generative AI와 AWS DeepComposer (0) | 2021.07.17 |
---|---|
3.14 Generative AI 소개 (0) | 2021.07.15 |
3.10 AWS DeepRacer를 활용한 강화학습 (0) | 2021.07.13 |
3.9 AWS DeepRacer를 활용한 강화학습 (0) | 2021.07.13 |
3.8 강화학습과 적용 (0) | 2021.07.12 |