공부/강화학습 (RL)

728x90

OpenAI Gym Taxi - Policy Iteration 강화학습

2023.01.28

1. OpenAI Gym Taxi Environment https://www.gymlibrary.dev/environments/toy_text/taxi/ Taxi - Gym Documentation Previous Blackjack www.gymlibrary.dev OpenAI Gym에서 제공하는 다양한 환경 중 하나인 Taxi (Toy Text) 환경은 위 사진과 같이 구성되어 있습니다. 그리드에는 R(빨강), G(초록), Y(노랑) 및 B(파랑)로 표시되는 4개의 지정된 위치가 있습니다. 에피소드가 시작되면 택시는 임의의 장소에서 출발하고 승객은 임의의 또 다른 장소에 있습니다. 택시는 승객의 위치로 운전하여 승객을 태우고 승객의 목적지(지정된 4개의 위치 중 다른 하나)로 운전한 다음 승객을 하차시..

공부/강화학습 (RL)

강화학습 기본 이론과 수학적 원리

2021.02.13

강화학습이 무엇인지, 강화학습을 이용해 어떤 성과들을 이뤘는지 살펴본다. 또한 강화학습에서 사용하는 기본 용어들을 알아본다. 기계 학습이란? 기계 학습은 아서 사무엘이 "기계가 일일이 코드로 명시하지 않은 동작을 데이터로부터 학습하여 실행할 수 있도록 하는 알고리즘을 개발하는 연구 분야"라고 정의했다. 기계 학습은 크게 지도 학습, 비지도 학습, 강화 학습으로 나눌 수 있다. 지도 학습(Supervised Learning)은 정답(Label)이 있는 학습 데이터 세트(Train Dataset)이 필요하다. 지도 학습 기법을 이용하는 경우에는 머신러닝 알고리즘이 데이터 세트의 특징(Feature)을 통해 예측(Predict)한 값과 실제 정답의 오차를 줄여나가도록 반복적으로 학습한다. 학습이 완료되면 데이..

728x90

OpenAI Gym Taxi - Policy Iteration 강화학습

강화학습 기본 이론과 수학적 원리

티스토리툴바