본문 영역으로 바로가기
강화학습의 수학적 기초와 알고리듬 이해 이미지

강화학습의 수학적 기초와 알고리듬 이해




강좌개요

■ 학습 목표: 인공지능 기술 원리 학습을 위한 강화학습의 수학적 기초와 알고리듬에 대한 이해

■ 수업 내용: 본 강의는 인공지능의 주요원리인 강화학습(reinforcement learning)의 기본 개념과 원리를 다루고 있습니다. 강화학습의 최신이론을 설명하는 것 대신, 강화학습을 구성하는 기본적인 원리의 이해를 돕기 위해 강화학습의 수학적인 근간이 되는 '동적계획법', '마르코브 과정', '마르코브 의사결정 프로세스' 등에 대해 그 개념을 예시와 함께 설명하고, 보다 쉽게, 깊은 이해를 할 수 있도록 도움을 주는 강의입니다.

■ 추천 학습 대상 체크리스트
1. 인공지능에 관심이 있다.
2. 강화학습의 원리를 이해하고 싶다.
3. 인공지능 분야의 기초지식을 쌓고 싶다.
4. 강화학습의 주요 원리인 동적계획법, 마르코프 체인, 몬테카를로 알고리듬 등을 체계적으로 이해하고 싶다.
한 가지라도 해당된다면 이 강좌를 추천합니다!
강좌 계획
강의계획표
주차 주제 강의명 오픈일
1주차 강화학습의 이해 1.1 강화학습 개요 1/25
1.2 Multi-armed Bandit 문제
1.3 강화학습 맛보기
2주차 동적계획법 - 1 2.1 문제해결전략과 동적 계획법 1/25
2.2 동적 계획법의 주요개념(1) 최적화의 원리
2.3 동적 계획법의 주요개념(2) 중첩되는 부분문제와 역진귀납법
3주차 동적계획법 - 2 3.1 최단거리 문제 (Shortest Path) 2/1
3.2 방문판매원 문제(Traveling Salesman Problem, TSP)
3.3 배낭문제 (Knapsack Problem)
4주차 마르코브 과정 4.1 마르코브 프로세스 개요 2/1
4.2 마르코브 프로세스 예시
4.3 마르코브 보상 프로세스
5주차 마르코브 결정 프로세스 - 1 5.1 MDP 개요 2/8
5.2 MDP 예시 - Examples of Markov Decision Process
6주차 마르코브 결정 프로세스 - 2 6.1 MDP 가치함수 2/8
6.2 Infinite-horizon MDP
7주차 마르코브 결정 프로세스 - 3 7.1 Value Iteration 2/15
7.2 Policy Iteration
8주차 중간고사 중간고사 2/15
9주차 강화학습 알고리듬 - 1 9.1 강화학습 Model-Free Reinforcement Learning 2/15
9.2 몬테칼로 학습 Monte-Carlo Learning
10주차 강화학습 알고리듬 - 2 10.1 시간차 학습 Temporal-Difference (TD) Learning 2/22
10.2 SARSA 알고리듬
11주차 강화학습 알고리듬 - 3 11.1 On-policy vs. Off-policy 2/22
11.2 Q-Learning 알고리듬
12주차 딥 강화학습 - 1 12.1 인공신경망 개요 3/1
12.2 Deep Q-Network (DQN) 개요
13주차 딥 강화학습 - 2 13.1 정책경사 (Policy Gradient) 개요 3/1
13.2 정책경사 정리 (Policy Gradient Theorem) 리뷰
14주차 딥 강화학습 - 3 14.1 REINFORCE 알고리듬 3/8
14.2 Actor-Critic 알고리듬
15주차 딥 강화학습 - 4 + 강의 정리 + 전문가 사례소개 (1) 15.1 A3C 알고리듬 3/8
15.2 강의 정리 및 요약
15.3 학계 전문가 강연
16주차 전문가 사례소개 (2) 16.1 산업계 전문가 강연 3/15
17주차 기말고사 기말고사 3/15

강좌 운영진

  교수소개  

정태수교수님
정태수
고려대학교 산업경영공학부 부교수
고려대학교 공학대학원 스마트제조학과 주임교수
한국산업기술진흥원 산업인공지능 인력양성 사업 고려대학교 참여기관 과제책임자(PI)
고려대학교 석탑강의상(최우수 강의상) 5회 수상
E-mail: tcheong@korea.ac.kr

  TA/운영진  

남조교
강성호
고려대학교 공과대학 연구 조교
E-mail: ght3game@gmail.com
강좌 이수 요건
강좌 이수 요건표
  • 퀴즈(20%)+중간고사(40%)+기말고사(40%)의 비중으로 성적에 반영됩니다.
  • 전체 학습활동을 평가한 결과, 60% 이상의 학습 성과를 획득한 학습자에게 이수증을 발급할 예정입니다.
  • 교재 및 참고문헌

      참고교재  

  • 별도의 참고 교재는 없습니다. 차시별로 학습자료를 제공합니다.
  • 관련 강좌

    현재 강좌와 관련있는 강좌를 찾을 수 없습니다.
    1. 분야

      공학
      (컴퓨터ㆍ통신)
    2. 강좌 내용의 어려운 수준을 의미합니다. 교양, 전공기초, 전공심화 순으로 난이도가 증가합니다.

      난이도

      전공기초
    3. 강좌를 개발하고 운영하는 기관입니다. 컨소시엄으로 운영 시, 대표기관의 명칭이 나타납니다

      운영기관

      고려대학교
    4. 운영 기관의 전화번호 입니다.

      전화번호

      -
    5. 강좌의 구성 주차 수를 의미합니다. (강좌를 충실히 학습하기 위해 필요한 주당 학습시간을 의미합니다.)

      주차
      (주간 학습 권장 시간)

      17주
      (주당 01시간 50분)
    6. 본 강좌 이수자에게 인정되는 학습시간으로 해당 강좌의 동영상, 과제, 시험, 퀴즈, 토론 등의 시간을 포함합니다. (강의 내용과 관련된 동영상 재생 시간의 총 합계입니다.)

      학습인정시간
      (총 동영상시간)

      29시간 30분
      (25시간 00분)
    7. 수강신청이 가능한 기간으로 해당 기간 내에만 수강신청이 가능합니다.

      수강 신청 기간

      2021.01.25 ~ 2021.03.19
    8. 강좌가 운영되고 교수지원이 이루어지는 기간입니다. 이수증은 강좌운영기간이 종료된 이후에 발급받을 수 있습니다.

      강좌 운영 기간

      2021.01.25 ~ 2021.03.19
    9. 강의 언어

      한국어