1口(1社3名まで受講可能)でのお申込は、

 受講料 57,000円/1口 が格安となります。







認識から行動へ
 :深層強化学習を理解するための
  基礎と応用

 S180516K

 

開催日時:2018年7月24日(火) 10:30-16:30

会  場:オームビル(東京都千代田区神田錦町3‐1)
       【地下鉄】
         東西線『竹橋駅』徒歩3分
         三田線・新宿線・半蔵門線『神保町駅』徒歩7分
         新宿線・千代田線『小川町駅』徒歩7分
         丸ノ内線『淡路町駅』徒歩8分
       【JR】
         中央線・山手線・京浜東北線『神田駅』徒歩12分
         中央線・総武線『御茶ノ水駅』徒歩11分
             

受 講 料:1人様受講の場合 46,000円[税別]/1名

     1口でお申込の場合 57,000円[税別]/1口(3名まで受講可能)

 


 

 講 師

  荒井 幸代 氏 

       千葉大学大学院 工学研究科都市環境システム
       教授  博士(工学)
                      


 
■略歴
  ・東京工業大学大学院・理工学研究科 制御工学専攻修士課程修了,
   同 総合理工学研究科知能科学博士課程修了
  ・ソニー(株),University of California Berkeley計算機科学科客員研究員,
   Carnegie Mellon University, Robotics Institute Postdoctoral Fellow
  ・京都大学客員助教授 大学院情報学研究科社会情報学専攻
  ・千葉大学助教授 同准教授 同 教授


■専門および得意な分野・研究
  人工知能,分散人工知能,マルチエージェントシステム,強化学習,
  逆強化学習,ノンパラメトリックアプローチ,多目的強化学習

■本テーマ関連の学会・協会・団体等
  人工知能学会(2016-7 理事),電子情報通信学会,電気学会,
  オペレーションズリサーチ学会,計測自動制御学会,
  AAAI (American Association for Artificial Intelligence),
  ACM (Association for Computing Machinery)


   古典的AIでは問題解決を「診断型」と「計画型」に大別してきた.深層学習は前者,
  すなわち,対象の「認識」や「分類」を担うアルゴリズムである.
   近年注目されているAlphaGo,そして自動運転の問題を考えてみると,状態を認識し,
  その状態に最適な行動を選択する必要がある.第2世代のAIでは,この状態と行動の対を
  「If(状態)then(行動)」のルールとして,人間の専門的知識を知識ベース化しヒュー
  リスティクス(発見的知識)などと呼んだ.しかし,この種の知識獲得は困難を極め, 
  ルールの優先順位を決める重みづけに限界があった.そこで登場したのが強化学習である.
   強化学習は「未知の環境での」行動獲得の手段であり,報酬というスカラー量さえ定義
  できれば,後は試行錯誤に委ねられる設計者フリー,モデルフリーであることが最大の売
  りである. しかし,強化学習で所与とされる「報酬」,「状態空間」の設計が案外難しい
  ことが実用を妨げている.
   この流れの中で,深層学習がにわかに注目され,そこに強化学習を導入した深層強化学
  習によるAtariの成功を受けて,再度強化学習が注目されている.
   そこで,本セミナーでは,強化学習の理論的基礎,その応用として自動運転による交通
  流最適化を通じて状態の特徴空間や報酬の設計法として逆強化学習,模倣学習について
  解説する.




講義項目


 1.人工知能における問題解決
  1.1 診断型と計画型
  1.2 探索
  1.3 論理的推論
    (a)演繹推論
    (b)帰納推論

 2.強化学習の基礎
  2.1 モデリング
    (a)状態集合,行動集合,報酬
    (b)学習主体(エージェント)の定義
    (c)環境との相互作用:報酬
  2.2 マルコフ決定過程
    (a)動的計画法
    (b)行動選択
    (c)環境との相互作用:報酬

 3.強化学習:基本アルゴリズム
  3.1 強化学習の分類
    (a)ブートストラップ法
    (b)モンテカルロ法
  3.2 代表的な強化学習アルゴリズム
    (a)TD学習
    (b)Q学習
    (c)Sarsa
    (d)モンテカルロ法
     ・First-visit Monte Carlo, Every-visit Monte Carlo
     ・Profit Sharing
  3.3 状態と行動
    (a)連続と離散
    (b)Actor-Critic
    (c)行動選択
  3.4 応用と課題
    (a)交通流最適化/マルチエージェントモデル
    (b)電力融通/マルチエージェントモデル
    (c)不完全知覚問題
    (d)報酬設計問題


 4.逆強化学習
  
4.1 逆強化学習の基礎
    (a)状態遷移確率を用いる方法(Ng)
    (b)模倣による方法(Abbeel)
  4.2 最新の逆強化学習アルゴリズム
    (a)Maximum Entropy IRL
    (b)Bayesian Non Parametric IRL
  4.3 逆強化学習の応用と課題
    (a)インセンティブの推定
    (b)Active Forecast(行動予測)
  4.4 応用と課題
    (a)交通流最適化/マルチエージェントモデル
    (b)電力融通/マルチエージェントモデル
    (c)Feature Construction IRL: 状態空間と報酬の相互改善法


 5.最近の話題
 
 5.1 頑健性を実現する強化学習:生成モデル GAN
  5.2 適応性を実現する強化学習:Bayesian Nonparametric IRL for Switched MDPs


 6.まとめ
 


 

 お1人様      受講申込要領  1口(1社3名まで) 受講申込要領   セミナー 総合日程