-
파이썬을 활용한 강화학습python source code 2023. 5. 24. 23:12728x90
강화학습에서는 좋은 의사결정을 하면 보상을 생성하여 그 행동을 더욱 유발시키도록 하는 방식으로 구동된다.
특정 환경에서 높은 리워드를 향하는 방향으로 알고리즘이 동작하기에 이를 반복할 수록 경험이 쌓이고 시행착오를 통해 학습된다.
Markov decision process (MDP)는 수학적인 프레임워크로써 의사결정을 모델링한다. 여기서 Dynamic programming (DP)이란 용어가 나오는데 이것은 수학적 최적화 방식이며 컴퓨터 프로그래밍 방법을 의미한다. DP는 복잡한 문제 해결을 위해 사용되고 하위 subset들을 해결하는 방식(문제를 해결하기 위한 정보를 발견하는 동안 진행된다.)
Multiclass Queuing Networks (MQNs) : 대기행렬이론
이 네트워크는 실제 세계의 상황(서로다른 행동들이 발생하는 순서)를 Multiclass Queuing Networks 형태로 형성한 것을 의미한다.
Deep Q-learning algorithm
개인적으로는 DQN 또한 강력한 머신러닝 알고리즘 중 하나라고 생각한다.
keras-rl을 아래의 코드로 설치해서 사용해보았다.
!pip install keras-rlerror: No available video device위의 에러는 아래와 같이 해결할 수 있다.
(런타임을 삭제하고 다시 아래의 모듈을 설치하면 해결 가능)
!pip install keras-rl2아래와 같이 구글 colab 환경에서 테스트 수행

직관적인 이해가 쉬운 DQN외에도 아래의 표와 같은 여러 알고리즘들이 있다.

참고문헌 : Industrial Machine Learning Using Artificial Intelligence as a Transformational Disruptor / Andreas Francois Vermeulen
대기행렬이론(待機行列理論, 영어: queueing theory)은 대기행렬(queue, waiting line)을 수학적으로 다루는 이론이다. 이 이론은 대기행렬에 도착하는 것과 대기하는 것 그리고 서비스되는 일련의 프로세스들에 대한 수학적, 확률적 분석을 가능하게 한다. 시스템의 평균 대기시간, 대기행렬의 추정, 서비스의 예측 등을 현재 상태를 기반으로 한 시스템의 확률을 기반으로 하여 성능을 측정하는 유용한 도구이다. 대기행렬이론은 경영관리, 산업공학, 통신 네트워크의 성능분석 및 설계(패킷스케줄링 정책, 자원관리)등 여러 분야에서 강력한 도구이다.
이 이론은 서비스 공급에 얼만큼의 리소스를 투입하느냐는 비즈니스적인 결정을 내리는 데 사용되었기 때문에 일반적으로 운용 과학의 한 분야로 생각되고 있다. 그러나 이 이론은 경영관리와 함께 산업 전반, 공공 서비스, 엔지니어링 등 여러 분야에 걸쳐 폭넓게 적용이 가능하다. 종종 교통 시스템이나 통신 네트워크의 설계 및 분석과 같은 분야에서 많이 사용되며 최근에는 콜센터를 분석하는 데 응용되고 있다. 이 이론은 직접적으로 지능형 교통 시스템, 콜 센터, PABX, 네트워크, 서버 큐잉, 통신 시스템, 교통 흐름 등의 분야에서 사용된다.
통신망을 모델링하고 분석하는 방법에는 게임 이론, 그래프 이론 등의 수학적인 도구가 사용되기도 한다.
참고 : https://ko.wikipedia.org/wiki/%EB%8C%80%EA%B8%B0%ED%96%89%EB%A0%AC%EC%9D%B4%EB%A1%A0
대기행렬이론 - 위키백과, 우리 모두의 백과사전
위키백과, 우리 모두의 백과사전. 대기행렬이론(待機行列理論, 영어: queueing theory)은 대기행렬(queue, waiting line)을 수학적으로 다루는 이론이다. 이 이론은 대기행렬에 도착하는 것과 대기하는 것
ko.wikipedia.org
반응형'python source code' 카테고리의 다른 글
Streamlit 모듈을 활용한 웹 페이지 디자인 (사이트) (0) 2023.06.09 openAI gym API 관련 예제 (1) 2023.05.29 google colab 환경에서 No available video device 에러 해결 (0) 2023.05.27 파이썬 언어의 특징, 산업계에 응용될 수 있는 파이썬 skills (1) 2023.05.23 Mnist를 이용한 GAN example (0) 2023.03.20