-
A3C 내용 및 코드 정리 (1)python source code 2023. 10. 3. 14:29728x90
아래의 논문에서 소개된 알고리즘은 DQN과 같이 메모리에 많은 샘플을 쌓아서 샘플 사이의 연관성을 깨는 것이 아닌, 에이전트를 여러개 사용하는 것이다.
MNIH, Volodymyr, et al. Asynchronous methods for deep reinforcement learning. In: International conference on machine learning. PMLR, 2016. p. 1928-1937.
샘플을 모으는 각 에이전트는 액터러너 actor-learner라고도 부른다.
다른 환경에서 학습하며 샘플을 모으고 글로벌신경망 업데이트 후 자신의 글로벌 신경망으로 업데이트 하는 방식 수행 / 비동기적으로 발생
A3C를 통해 에이전트가 학습하는 과정
1. 글로벌 신경망 생성, 여러개의 환경, 액터러너 생성
2. 각 액터러너는 일정 타임스텝 동안 환경에서 자신의 모델로 샘플 수집
3. 정해진 수의 타임스텝 이후 각 액터러너는 글로벌 네트워크를 모은 샘플로 업데이트
4. 글로벌 신경망을 업데이트한 액터러너는 다시 글로벌신경망으로 자신을 업데이트
참고 :
강화학습 첫걸음
텐서플로로 살펴보는 Q 러닝, MDP, DQN, A3C 강화학습 알고리즘
https://m.hanbit.co.kr/store/books/book_view.html?p_code=B9929859785
강화학습 첫걸음
텐서플로 코드로 입문하는 강화학습의 세계
m.hanbit.co.kr
파이썬과 케라스로 배우는 강화학습
내 손으로 직접 구현하는 게임 인공지능 | 개정판https://product.kyobobook.co.kr/detail/S000001766424
파이썬과 케라스로 배우는 강화학습 | 이웅원 - 교보문고
파이썬과 케라스로 배우는 강화학습 |
product.kyobobook.co.kr
17. Double DQN
### Q-Learning $$Q(s_{t},a_{t}) = Q(s_{t},a_{t}) + \alpha (r_{t+1}+\gamma max_{a}Q(s_{t+1},a)-Q(s_…
wikidocs.net
반응형'python source code' 카테고리의 다른 글