이론
-
DQN (Deep Q learning) hyper parameter 최적화 방법 찾기이론 2023. 9. 2. 18:44
1. batch size 및 학습률 등의 최적화는 시행착오를 거쳐 찾는 일이 다반사이기 때문에 여러 방법들을 찾아보고 있다. 학습률은 머신러닝에 있어서 중요한 요소 중 하나이며 최적화 위치를 찾는 스텝 비율을 의미하기도 한다. 2. batch size는 학습에 사용할 샘플 수를 의미한다. Batch gradient descent – 모든 샘플을 활용 Stochastic gradient descent – 하나의 epoch에서 랜덤하게 하나를 뽑아 사용. Mini-batch gradient descent – 특정 수 만큼의 샘플을 하나의 epoch에서 추출, 사용 mini-batch가 1개의 단일 batch보다 나은 점은 전체 학습시간이 달라지기 때문이며 참고자료에서는 16~512개의 사이즈를 선정하였다. ..
-
강화학습 Reinforcement Learning 이론 정리 (5)이론 2023. 8. 3. 22:29
정책과 가치함수 앞의 글에서 보였던 MDP가 가지고 있는 상태에 대해 에이전트는 행동을 취할 수 있다. 그리고 환경으로부터 reward 즉, 보상을 받는다. https://data-engineering-story.tistory.com/159 강화학습 Reinforcement Learning 이론 정리 (4) 마르코프 의사결정 과정 강화학습은 연속적인 의사결정 과정을 포함하고 있다. 여기서는 마르코프 의사결정으로 모델링된 강화학습을 주로 다룬다. (Markov decision processes (MDP)) Markov chains (MC)와 Ma data-engineering-story.tistory.com 강화학습 Reinforcement Learning 이론 정리 (4) 마르코프 의사결정 과정 강화학습..
-
강화학습 Reinforcement Learning 이론 정리 (4)이론 2023. 8. 1. 23:37
마르코프 의사결정 과정 강화학습은 연속적인 의사결정 과정을 포함하고 있다. 여기서는 마르코프 의사결정으로 모델링된 강화학습을 주로 다룬다. (Markov decision processes (MDP)) Markov chains (MC)와 Markov reward processes (MRP)에 대해서도 다룰 예정이다. 상태 St에서 에이전트는 행동을 선택할 수 있다.(행동 셋으로부터 선택) 이후, next time period (t+1)로 전이가 되며 그 행동에 대한 상태변화를 환경에 적용한다. 그리고 환경은 에이전트에 수치적인 보상을 다음 새로운 상태 St+1와 함께 Rt+1를 보상한다. There is a cycle of state, action, reward, and state (S, A, R, S)...
-
강화학습 Reinforcement Learning 이론 정리 (3)이론 2023. 7. 27. 21:31
지난번 정리한 강화학습 내용에 추가하여 괜찮은 서적을 발견하게 되어 추가 이론 정리 글을 쓰게 되었습니다. 아래 참고문헌의 내용들을 주로 발췌했습니다. 편의상 문어체로 작성하였습니다. 1994년 월스트릿 저널에서는 intelligence 를 아래와 같이 정의했다. - 문제를 해결하고 일반적인 추론능력을 갗주고 있으며 계획, 문제 해결, 사고, 이해력, 경험을 통해 배우는 것. - 단순히 책을 통한 협의의 학습 또는 시험을 하는 것이 아닌 더 광의의 우리 주변환경을 더 깊게 이해하는 능력임 Oxford Languages 에서는 AI를 작업을 수행할 수 있는 컴퓨터 시스템의 이론 및 개발로써 일반적으로 시각적 인식, 언어와 같은 인간 지능이 필요하며 인식, 의사 결정 및 언어 간의 번역 등을 수행하는 것으로..
-
강화학습 알고리즘 종류 (1)이론 2023. 7. 22. 17:46
Model-Free vs Model-Based RL 적용하고자 하는 학습 환경에서 어떠한 Agent를 선정해야 할 지 고민이 많은 경우가 대다수이다. agent에 모델을 사용한다면 학습시 편향이 발생할 우려가 있다. 하지만 model-free 방식의 경우에는 실행과 조정(tune)이 쉬우며 더 많이 활용된다. 주요 단점은 일반적으로 에이전트가 환경의 실측 모델을 사용할 수 없다. 이 경우 에이전트가 모델을 사용하려면 순전히 경험을 통해 모델을 배워야 하므로 몇 가지 문제가 발생하게 된다. 가장 큰 문제점은 모델에서의 편향이 에이전트에 의해 발생하여 실제 환경에서 적합하지 않게 된다는 것이다. 모델학습은 기본적으로 어려우며 많은 시간과 컴퓨팅 자원이 요구된다.... What to Learn in Model..
-
강화학습 Reinforcement Learning 이론 정리 (2) - value, policy 기반 강화학습 비교이론 2023. 7. 17. 21:31
- value-based 심층강화학습 : 주로 비연속적인 행동 공간에 활용됨 . value based DRL은 대규모 공간에 적용이 어렵고 연속적인 행동에서의 적용도 어려움 . DQN이 상호보완적이지만 여전히 행동 규모가 매우 큼 . 각 연속 행동 공간의 차원이 이산 행동과 연계가 되지만 fine-tuning이 어려움 . 최적 정책은 확률적 정책이며 이는 다른 대응되는 가능성과 그 행동 선택이 요구됨 . - 반면, 정책기반의 학습은 연속적인 행동이 가능함 . 위의 식 (3)과 같이 정책 함수는 상태, 행동 짝으로 구성됨 (심층신경망은 함수 추정에 활용됨) . 보상을 최대화 하기 위해 DNN기반의 정책함수 𝜋𝜃는 성능 함수 𝐽(𝜋)를 최대화 하도록 벡터값 𝜃를 탐색함 . 최적화 과정에서 gradient a..
-
강화학습 Reinforcement Learning 이론 정리 (1)이론 2023. 7. 15. 21:57
아래 그림은 강화학습의 프레임워크로도 아주 유명한 그림이다. 사실상 이 그림 하나로 설명이 거의 다 가능하다. 강화학습은 마르코프 결정 프로세스를 활용한 연속적인 의사결정 최적화 알고리즘 중 하나이며 강화학습은 모델기반, 그리고 model free로 나뉜다. 그 기준은 시스템의 모델이 있고 없고의 차이로 구분된다. 하지만 대부분의 제조 공정 제어 시스템 분야에서는 그 복잡도가 높기 때문에 알려지지 않은 모델을 기반으로 model-free 강화학습이 주로 활용되고 있다. 위의 그림은 에이전트가 환경과 상호작용을 하여 강화학습 알고리즘을 통해 액션을 선택하는 것이다. 상태 S(환경) 가장 큰 보상을 받는 방향으로 학습이 이뤄진다. 상태에 대한 행동 보상은 다음 상태(S t+1)로부터 행동이 진행된 이후 다음..
-
심층 강화학습의 제조분야 적용 분석 (1)이론 2023. 7. 15. 21:32
몇 년이 지났지만 아직도 화두에 떠오르고 있는 인공신경망을 적용한 강화학습인 Deep Reinforcement Learning (DRL)에 대한 연구가 활발히 진행되고 있다. DRL은 인공신경망과 강화학습의 이점을 확보할 수 있는 학습방법이며 복잡하고 동적인 환경에서 특히나 그 성능이 더 발휘된다. 하지만 아직 스마트 제조 분야에서의 적용 사례가 많이 없다. ... 참고한 논문에서는 260여개의 관련 논문을 분석하였고 제조 분야에서의 적용을 위한 인사이트, 가이드 등을 제공해준다. 강화학습, Reinforcement learning (RL) 는 중요한 AI 알고리즘의 분야 중 하나이다. 이는 연속적인 의사결정에서 두드러진 성능을 보인다. 최근, 비약적으로 발전한 컴퓨팅 자원, GPU 등의 발전과 딥러닝 ..