国内精品卡一卡二卡三,好男人好资源在线观看视频的在线直播平台

深度強化學(xué)習(xí)技術(shù)與應(yīng)用案例

2021年7月26日-7月31日，青海西寧

課程目標(biāo)

實現(xiàn)Gym、Ray仿真環(huán)境，體驗各類實驗

1、了解強化學(xué)習(xí)發(fā)展。

2、掌握單智能體深度強化學(xué)習(xí)。

3、掌握多智能體深度強化學(xué)習(xí)。

4、掌握多任務(wù)深度強化學(xué)習(xí)。

5、掌握強化學(xué)習(xí)應(yīng)用領(lǐng)域GymRetro游戲平臺、機器人控制、計算機視覺、自然語言處理。

6、實現(xiàn)Gym、Ray仿真環(huán)境。

7、實際體驗QLearning實驗、DQN實驗、DDPG實驗、SARSA實驗、Rainbow實驗、A3C實驗、PPO實驗。

課程大綱

實驗課程注重代碼實踐，更注重落地應(yīng)用

模塊一：強化學(xué)習(xí)基礎(chǔ)

1.1 強化學(xué)習(xí)簡介

1.1.1 強化學(xué)習(xí)的概念內(nèi)涵

1.1.2 強化學(xué)習(xí)的發(fā)展歷史

1.1.3 強化學(xué)習(xí)的算法分類

1.1.4 強化學(xué)習(xí)的基本概念

1.2 馬爾科夫決策過程（MDP）

1.2.1 MDP概念

1.2.2 策略（Policy）概念

1.2.3 價值函數(shù)（Value Function）概念

1.2.4 模型（Model）概念

1.3 動態(tài)規(guī)劃算法（DP）

1.3.1 動態(tài)規(guī)劃概念

1.3.2 策略迭代方法（Policy Iteration）

1.3.3 價值迭代方法（Value Iteration）

1.4 蒙特卡洛算法（MC）

1.4.1 蒙特卡洛算法概念

1.4.2 探索與利用

1.4.3 多臂老虎機問題

1.5.2 MC、TD、DP算法對比

1.5 時序差分算法（TD）

1.5.1 時間差分算法概念

1.6 Q學(xué)習(xí)（Q-Learning）

1.6.1 Q-Learning算法

1.6.2 SARSA算法

1.6.3 Q-Learning與SARSA

1.7 策略梯度算法（Policy Gradient）

1.7.1 策略梯度算法（Policy Gradient）

1.8 行動者-評論家算法（A2C）

1.8.1 行動者-評論家算法（Actor-Critic）

模塊二：單智能體強化學(xué)習(xí)

2.1 DQN

2.2 Double DQN

2.3 Dueling DQN

2.4 Distributional Q-function

2.5 Noisy Net

2.6 Rainbow

2.7 DDPG

2.8 異步多進程Actor-critic算法

2.9 Proximal Policy Optimization

模塊三、多智能體強化學(xué)習(xí)

3.1 多智能體強化學(xué)習(xí)基礎(chǔ)

3.1.1 多智能體強化學(xué)習(xí)

3.1.2 多智能體系統(tǒng)的發(fā)展歷史

3.1.3 部分可觀察馬爾科夫決策過程

3.2 基于值函數(shù)的多智能體深度強化學(xué)習(xí)

3.2.1 基于DQN的早起多智能體方法

3.2.2 協(xié)同多智能體學(xué)習(xí)的價值分解網(wǎng)絡(luò)（VDN）

3.2.3 單調(diào)值函數(shù)分解（QMIX）

3.2.4 增強智能體間學(xué)習(xí)（RIAL）

3.3 基于策略的多智能體深度強化學(xué)習(xí)（MADDPG）

模塊四、強化學(xué)習(xí)應(yīng)用

4.1 強化學(xué)習(xí)在游戲平臺介紹

4.1.1 Gym Retro游戲平臺

4.1.2 Atari 2600

4.1.3 Mujoco

4.1.4 Roboschool

4.1.5 TORCS

4.1.6 DMLab-30

4.2強化學(xué)習(xí)在機器人控制方面應(yīng)用

4.2.1機器人導(dǎo)航

4.2.2機械臂控制

4.2.3家庭服務(wù)機器人

4.2.4機器人視覺

4.2.3 機器人足球

4.3強化學(xué)習(xí)在自動駕駛方面應(yīng)用

4.3.1路徑優(yōu)化

4.3.2交通信號燈控制

4.4 強化學(xué)習(xí)在推薦方面應(yīng)用

4.4.1 商品推薦

4.4.2 廣告推薦

4.5 強化學(xué)習(xí)在計算機視覺方面應(yīng)用

4.5.1圖像標(biāo)注框優(yōu)化

4.5.2圖像生成

4.5.3人體姿態(tài)估計

4.5.4行為識別

4.5.5目標(biāo)檢測

4.5.6人臉圖像語義分割

4.6 強化學(xué)習(xí)在自然語言處理方面應(yīng)用

4.6.1對話生成

4.6.2 自然語言問題生成

4.6.3網(wǎng)絡(luò)問答場景

模塊五、仿真實驗環(huán)境配置

5.1 Ubuntu16.04環(huán)境配置

5.1.1前期準備

5.1.2安裝準備

5.1.3安裝Anaconda3

5.1.4 pytorch的安裝及配置

5.2 python3基礎(chǔ)知識

5.2.1 python安裝與下載

5.2.2 python基礎(chǔ)語法

5.3 pytorch基礎(chǔ)知識

5.4 深度學(xué)習(xí)基礎(chǔ)知識

5.5 神經(jīng)網(wǎng)絡(luò)介紹

5.6 深度神經(jīng)網(wǎng)絡(luò)基礎(chǔ)demo講解

模塊六、實操實驗

6.1 Gym虛擬環(huán)境

6.1.1 Gym虛擬環(huán)境安裝

6.1.2 Gym虛擬環(huán)境基礎(chǔ)知識

6.2 利用Q-learning算法解決出租車調(diào)度問題

6.3.利用Q-learning解決“小車上山”問題

6.4 利用SARSA算法解決出租車調(diào)度問題

6.5 利用DQN解決“車-桿”問題

6.6 利用DQN算法訓(xùn)練Flappy Bird游戲

6.7 利用DQN算法訓(xùn)練“太空侵略者”游戲

6.8 利用Rainbow算法訓(xùn)練“乒乓球?qū)?zhàn)”游戲

6.9 利用Rainbow算法訓(xùn)練“打磚塊”游戲

6.10 利用DDPG算法解決Pendulum問題

6.11 利用DDPG算法實現(xiàn)簡單的機械臂控制任務(wù)

6.12 利用A3C算法在仿真賽道上訓(xùn)練自動駕駛賽車

6.13 利用A3C算法訓(xùn)練“乒乓球?qū)?zhàn)”游戲

6.14 利用PPO算法訓(xùn)練“坦克對戰(zhàn)”問題

6.15 利用PPO算法在仿真系統(tǒng)上實現(xiàn)“模擬月球著陸”問題

案例實驗展示

贈送課件、代碼、數(shù)據(jù)、配套實踐手冊

實力專家主講

歷屆好評最多的實力派講師

劉馳老師

北京理工大學(xué)計算機學(xué)院副院長，教授，博士生導(dǎo)師，國家優(yōu)秀青年科學(xué)基金獲得者，英國工程技術(shù)學(xué)會會士、英國計算機學(xué)會會士、中國電子學(xué)會會士。分別于清華大學(xué)和英國帝國理工學(xué)院獲得學(xué)士和博士學(xué)位，曾任美國IBM T.J. Watson研究中心和IBM中國研究院研究主管，并在德國電信研究總院（柏林）任博士后研究員。研究方向為智能物聯(lián)網(wǎng)與大數(shù)據(jù)技術(shù)?，F(xiàn)任國家信息產(chǎn)業(yè)“十四五”規(guī)劃專家顧問組成員、中國電子學(xué)會理事、第四屆全國信標(biāo)委技術(shù)委員會委員等、CCF青工委執(zhí)委/杰出會員、IEEE Transactions on Network Science and Engineering編委等。并獲得省部級一等獎1項、二等獎1項、三等獎1項。出版書籍《深度強化學(xué)習(xí)學(xué)術(shù)前沿與應(yīng)用實戰(zhàn)》