課程目標(biāo)
實現(xiàn)Gym、Ray仿真環(huán)境,體驗各類實驗
1、了解強化學(xué)習(xí)發(fā)展。
2、掌握單智能體深度強化學(xué)習(xí)。
3、掌握多智能體深度強化學(xué)習(xí)。
4、掌握多任務(wù)深度強化學(xué)習(xí)。
5、掌握強化學(xué)習(xí)應(yīng)用領(lǐng)域GymRetro游戲平臺、機器人控制、計算機視覺、自然語言處理。
6、實現(xiàn)Gym、Ray仿真環(huán)境。
7、實際體驗QLearning實驗、DQN實驗、DDPG實驗、SARSA實驗、Rainbow實驗、A3C實驗、PPO實驗。
課程大綱
實驗課程注重代碼實踐,更注重落地應(yīng)用
模塊一:強化學(xué)習(xí)基礎(chǔ) | |||
1.1 強化學(xué)習(xí)簡介
1.1.1 強化學(xué)習(xí)的概念內(nèi)涵 1.1.2 強化學(xué)習(xí)的發(fā)展歷史 1.1.3 強化學(xué)習(xí)的算法分類 1.1.4 強化學(xué)習(xí)的基本概念 1.2 馬爾科夫決策過程(MDP) 1.2.1 MDP概念 1.2.2 策略(Policy)概念 1.2.3 價值函數(shù)(Value Function)概念 1.2.4 模型(Model)概念 1.3 動態(tài)規(guī)劃算法(DP) 1.3.1 動態(tài)規(guī)劃概念 1.3.2 策略迭代方法(Policy Iteration) 1.3.3 價值迭代方法(Value Iteration) |
1.4 蒙特卡洛算法(MC)
1.4.1 蒙特卡洛算法概念 1.4.2 探索與利用 1.4.3 多臂老虎機問題 1.5.2 MC、TD、DP算法對比 1.5 時序差分算法(TD) 1.5.1 時間差分算法概念 1.6 Q學(xué)習(xí)(Q-Learning) 1.6.1 Q-Learning算法 1.6.2 SARSA算法 1.6.3 Q-Learning與SARSA 1.7 策略梯度算法(Policy Gradient) 1.7.1 策略梯度算法(Policy Gradient) 1.8 行動者-評論家算法(A2C) 1.8.1 行動者-評論家算法(Actor-Critic) |
||
模塊二:單智能體強化學(xué)習(xí) | |||
2.1 DQN
2.2 Double DQN 2.3 Dueling DQN 2.4 Distributional Q-function 2.5 Noisy Net |
2.6 Rainbow
2.7 DDPG 2.8 異步多進程Actor-critic算法 2.9 Proximal Policy Optimization |
||
模塊三、多智能體強化學(xué)習(xí) | |||
3.1 多智能體強化學(xué)習(xí)基礎(chǔ)
3.1.1 多智能體強化學(xué)習(xí) 3.1.2 多智能體系統(tǒng)的發(fā)展歷史 3.1.3 部分可觀察馬爾科夫決策過程 3.2 基于值函數(shù)的多智能體深度強化學(xué)習(xí) 3.2.1 基于DQN的早起多智能體方法 3.2.2 協(xié)同多智能體學(xué)習(xí)的價值分解網(wǎng)絡(luò)(VDN) 3.2.3 單調(diào)值函數(shù)分解(QMIX) 3.2.4 增強智能體間學(xué)習(xí)(RIAL) 3.3 基于策略的多智能體深度強化學(xué)習(xí)(MADDPG) |
|||
模塊四、強化學(xué)習(xí)應(yīng)用 | |||
4.1 強化學(xué)習(xí)在游戲平臺介紹
4.1.1 Gym Retro游戲平臺 4.1.2 Atari 2600 4.1.3 Mujoco 4.1.4 Roboschool 4.1.5 TORCS 4.1.6 DMLab-30 4.2強化學(xué)習(xí)在機器人控制方面應(yīng)用 4.2.1機器人導(dǎo)航 4.2.2機械臂控制 4.2.3家庭服務(wù)機器人 4.2.4機器人視覺 4.2.3 機器人足球 4.3強化學(xué)習(xí)在自動駕駛方面應(yīng)用 4.3.1路徑優(yōu)化 |
4.3.2交通信號燈控制
4.4 強化學(xué)習(xí)在推薦方面應(yīng)用 4.4.1 商品推薦 4.4.2 廣告推薦 4.5 強化學(xué)習(xí)在計算機視覺方面應(yīng)用 4.5.1圖像標(biāo)注框優(yōu)化 4.5.2圖像生成 4.5.3人體姿態(tài)估計 4.5.4行為識別 4.5.5目標(biāo)檢測 4.5.6人臉圖像語義分割 4.6 強化學(xué)習(xí)在自然語言處理方面應(yīng)用 4.6.1對話生成 4.6.2 自然語言問題生成 4.6.3網(wǎng)絡(luò)問答場景 |
||
模塊五、仿真實驗環(huán)境配置 | |||
5.1 Ubuntu16.04環(huán)境配置
5.1.1前期準備 5.1.2安裝準備 5.1.3安裝Anaconda3 5.1.4 pytorch的安裝及配置 5.2 python3基礎(chǔ)知識 |
5.2.1 python安裝與下載
5.2.2 python基礎(chǔ)語法 5.3 pytorch基礎(chǔ)知識 5.4 深度學(xué)習(xí)基礎(chǔ)知識 5.5 神經(jīng)網(wǎng)絡(luò)介紹 5.6 深度神經(jīng)網(wǎng)絡(luò)基礎(chǔ)demo講解 |
||
模塊六、實操實驗 | |||
6.1 Gym虛擬環(huán)境
6.1.1 Gym虛擬環(huán)境安裝 6.1.2 Gym虛擬環(huán)境基礎(chǔ)知識 6.2 利用Q-learning算法解決出租車調(diào)度問題 6.3.利用Q-learning解決“小車上山”問題 6.4 利用SARSA算法解決出租車調(diào)度問題 6.5 利用DQN解決“車-桿”問題 6.6 利用DQN算法訓(xùn)練Flappy Bird游戲 6.7 利用DQN算法訓(xùn)練“太空侵略者”游戲 |
6.8 利用Rainbow算法訓(xùn)練“乒乓球?qū)?zhàn)”游戲
6.9 利用Rainbow算法訓(xùn)練“打磚塊”游戲 6.10 利用DDPG算法解決Pendulum問題 6.11 利用DDPG算法實現(xiàn)簡單的機械臂控制任務(wù) 6.12 利用A3C算法在仿真賽道上訓(xùn)練自動駕駛賽車 6.13 利用A3C算法訓(xùn)練“乒乓球?qū)?zhàn)”游戲 6.14 利用PPO算法訓(xùn)練“坦克對戰(zhàn)”問題 6.15 利用PPO算法在仿真系統(tǒng)上實現(xiàn)“模擬月球著陸”問題 |
案例實驗展示
贈送課件、代碼、數(shù)據(jù)、配套實踐手冊
實力專家主講
歷屆好評最多的實力派講師
劉馳老師
北京理工大學(xué)計算機學(xué)院副院長,教授,博士生導(dǎo)師,國家優(yōu)秀青年科學(xué)基金獲得者,英國工程技術(shù)學(xué)會會士、英國計算機學(xué)會會士、中國電子學(xué)會會士。分別于清華大學(xué)和英國帝國理工學(xué)院獲得學(xué)士和博士學(xué)位,曾任美國IBM T.J. Watson研究中心和IBM中國研究院研究主管,并在德國電信研究總院(柏林)任博士后研究員。研究方向為智能物聯(lián)網(wǎng)與大數(shù)據(jù)技術(shù)?,F(xiàn)任國家信息產(chǎn)業(yè)“十四五”規(guī)劃專家顧問組成員、中國電子學(xué)會理事、第四屆全國信標(biāo)委技術(shù)委員會委員等、CCF青工委執(zhí)委/杰出會員、IEEE Transactions on Network Science and Engineering編委等。并獲得省部級一等獎1項、二等獎1項、三等獎1項。出版書籍《深度強化學(xué)習(xí)學(xué)術(shù)前沿與應(yīng)用實戰(zhàn)》
頒發(fā)權(quán)威證書
工業(yè)和信息化部人才交流中心證書
工信部授權(quán)證書
工業(yè)和信息化人才證書封皮
證書樣本
報名詳情
名額有限,請?zhí)崆皥竺?/p>
報名須知
培訓(xùn)對象:全國高校、高職計算機、大數(shù)據(jù)、人工智能等相關(guān)專業(yè)一線授課教師、實驗指導(dǎo)教師、研究生等。
培訓(xùn)時間:2021月7月26日-7月31日,每天9:00-17:00
培訓(xùn)費用:5500元(含培訓(xùn)費、教材費、資料費、場地費、午餐費(自助餐)、答謝晚宴等)
頒發(fā)證書
參加相關(guān)培訓(xùn)并通過考試的學(xué)員,可以獲得:
工業(yè)和信息化部頒發(fā)《人工智能工程師》證書。
該證書可在工信部相關(guān)網(wǎng)站查詢,可作為能力評價、考核和任職的重要依據(jù)。
考試及證書費用(可選):500元/人。
師資班精彩回顧
已連續(xù)舉辦14屆,參與高校1800所,人數(shù)8000+