1口(1社3名まで受講可能)でのお申込は、

受講料 58,800円/1口 が格安となります。


強化学習入門
~基本アルゴリズムから
   深層強化学習・応用まで(Pythonを用いて)~


 S180126K

   
 開催日時:2018年1月26日(金) 10:30-16:30

 会  場:中央大学駿河台記念館 (千代田区神田駿河台3-11-5)
          【地下鉄】
             東京メトロ丸ノ内線 『御茶ノ水駅』徒歩約6分
             東京メトロ千代田線 『新御茶ノ水駅』(B1出口)徒歩約3分
             都営地下鉄新宿線 『小川町駅』下車(B5出口)徒歩約5分
          【JR】
             中央・総武線 『御茶ノ水駅』徒歩約3分


受 講 料:
1人様受講の場合 46,000円[税別]/1名

     1口でお申込の場合 57,000円[税別]/1口(3名まで受講可能)

 

 講 師


 
曽我部 東馬 博士 


    電気通信大学 
    i-パワードエネルギーシステム研究センター&基盤理工学専攻 (兼)
    准教授 
              
 

      世界トップのプロ囲碁棋士に見事に勝利したAlphaGoの出現により、日本を含め
    世界中でAIに対する期待が高まっています。このAlphaGoの歴史的な勝利を支えた
    手法、すなわち「深層強化学習手法」が一躍注目を集めています。
     ディープラーニングの先にあり一躍注目を集める「深層強化学習」。AIの研究やビ
    ジネスの応用にはその基本原理を理解することが将来の布石につながるでしょう。
    しかしこの深層強化学習、難解と云われ内容をかみ砕きわかりやすく説明している
    資料は今のところなかなか見当たりません。本セミナーはこのような現状を踏まえ
    セミナーの構成を工夫。まずは基本となる強化学習の中核的な内容について、例
    題と「動画」を通してなるべくわかりやすく説明します。その上でセミナー中盤では
    「深層強化学習」をよりわかり易く理解するための手がかりとして「簡易型の線形回
    帰近似モデル」を応用した強化学習手法を、簡易デモなどを用いてわかりやすく説
    明します。そして、いよいよ後半では「最前線:深層強化学習」として、ニューラルネット
    ワーク近似モデルを使用する深層強化学習の理解に迫ります。具体例とともに
     ‘なるほど’と納得できるセミナー。「強化学習」とその先にある「深層強化学習」の
    基本知識と応用情報を入手し、ぜひ研究やビジネスの現場で活用して頂ければ幸いです。


   【受講対象】
     ・AIの最先端知識と技術に興味をお持ちの方。
     ・AIの研究と応用を真剣に検討されている方。
     ・AIを含めた最適化技術の応用に携わっている方。
     ・「最適化とは何か?」を知りたい方。
     ・画像認識・音声認識以外の分野でのAI応用の可能性に興味をお持ちの方。


   【受講後、習得できること】
     ・強化学習の基本原理と要素技術の基本知識の習得
     ・深層学習の基本原理と要素技術の基本知識の習得
     ・深層強化学習の基本原理と応用に関する知見の習得
     ・最先端最適化技術の可能性と問題点についての知見を習得



 講義項目


  第I部 はじめに
    強化学習の基本概念
    強化学習・深層学習および深層強化学習の特徴と違い
    深層強化学習により可能となること
    多腕バンディット問題をわかりやすく説明
    強化学習における探索と利用のジレンマ
    多腕バンディット問題の解法をわかりやすく説明
     ・平均報酬という概念について
     ・平均報酬を更新するための式の導きかた
     ・Epsilon ?greedy
     ・最適初期値設定法
     ・UCB1
     ・Bayesian/Thompson 法の詳細
    簡易デモ(python):Gridworld(上記4種類解法の実行:直感的に理解する

  第II部: 基本概念-マルコフ決定過程(MDP)の基本原理のポイント
    確率過程
    マルコフ性とは
    マルコフ鎖とは
    MDPの定義と式の導き方
    方策πの定義と価値関数の対応関係
    状態価値関数[V(s)]におけるベルマン方程式をわかりやすく説明
    状態行動価値関数[Q(s,a)] におけるベルマン方程式をわかりやすく説明
    簡易演習デモ(python)1:Gridworld(式を理解するために)
    最適状態価値関数V_* (s)のポイント
    最適状態行動価値関数Q_* (s,a)のポイント
    最適状態価値関数V_* (s)と最適状態行動価値関数Q_* (s,a)の相互関係
    ベルマン最適性方程式の導きかた
    簡易デモ(python)2:Gridworld(式を理解する)
    ディスカッション:最適性と近似性について

  第III部: 中核:強化学習におけるMDP問題の解法 :
    (1) 動的計画法の解説と入門:
       反復法による価値関数を求める:ランダム方策 vs 固定方策
       最適な方策の探索手法をわかりやすく説明
        ・方策反復法による最適状態価値関数を求める
        ・遷移確率を考慮した方策反復法による最適状態価値関数を求める
        ・価値反復法による最適状態価値関数を求める
       簡易デモ(python):Gridworld(4種類解法の実行と結果比較:概念を理解する)
    (2) Monte-Carlo(MC)法をわかりやすく解説
       モデル法とモデルフリー法のちがい
       経験に基づく学習手法のポイント
       MC法と多腕バンディットの内在関連性
       状態価値関数・行動状態価値関数と平均報酬との関係
       MC法による状態価値関数の求め方とポイント
       MC法による最適状態行動価値関数Q(s,a)の求め方とポイント
       簡易デモ(python):Gridworld(2種類MC法の実行と比較:概念を理解する)
    (3) TD学習手法のポイントと入門
       TD(0)法の説明と式の導きかた
       SARSA法の説明と式の導きかた
       Q-学習法の説明と式の導きかた
       On-PolicyとOff-Policyを詳しく説明
       簡易デモ(python):Gridworld(3種類TD法の実行と比較:概念を理解する

  第IV部: 拡張ー強化学習における関数近似手法とは(入門編):
      Tabular法(表形式手法)と近似解法のちがい
      回帰モデルと誤差関数をあらためて復習
      最急降下勾配法とMC法との関連性をわかりやすく説明
      疑似勾配(Semi-Gradient)とは
      簡単な線形回帰モデルに基いたMC法による状態価値関数V(s,θ)を求める
      簡単な線形回帰モデルに基いたTD(0)法によるV(s,θ)を求める
      簡単な線形回帰モデルに基いたSARSA法によるV(s,θ)を求める
      簡易デモ(python):Gridworld(回帰近似MDP解法の実行:直感的理解)

  第V部: 最前線:深層強化学習の基本概念と最重要ポイント :
      簡易型ニューラルネットワークを応用したQ-学習手法の説明
      深層Q-学習(DQN)の基本ポイント
      連続動作空間における強化学習のポイント
      方策勾配法の基本と式の導き方
      ガウシアン型行動確率分布の導入
      方策勾配法による連続動作空間における強化学習の簡易説明
      深層Actor-Critic法の基本と実行のコツ
      簡易実演デモ(python): Mountain car, Cartpole, Atariなど (概念の理解)


  第VI部: 応用:強化学習と深層強化学習の応用事例 :
    (1) ヒューマノイドやロボットの制御における深層強化学習の応用事例紹介
    (2) 電気制御素子のパラメーター探索における強化学習の応用事例紹介
    (3) 蓄電池充放電制御における強化学習の応用事例紹介
    (4) 太陽光発電の変動制御における強化学習の応用事例紹介
    (5) 簡易実演デモ(python):(応用の可能性と効果を議論する


 お1人様      受講申込要領  1口(1社3名まで) 受講申込要領   セミナー 総合日程