2025年4月3日,人工智能系列讀書班活動迎來了2025年第七場報告會,方徽星博士做了“強化學習”的内容分享,分享了強化學習的概念、難點與基本設置,介紹了馬爾科夫決策過程MDP(智能體所處的環境、狀态空間、動作空間、狀态轉移概率、獎勵函數,策略)、有模型學習(策略評估、值函數、最優策略、最優狀态-動作值函數、策略改進、策略疊代等)、免模型學習(蒙特卡羅強化學習、軌迹、策略改進、同策略蒙特卡羅強化學習算法、異策略蒙特卡羅強化學習算法)、貝爾曼方程與SARSA、Q學習算法、值函數近似、神經網絡形式的SARSA算法等。
圖 方徽星博士主持“強化學習”讨論會
自由讨論環節,大家讨論了強化學習中使用的Bellman等式,逐步疊代計算的方式,在多尺度特征計算中常常使用到;強化學習(交互式任務中,如智能體、機器人、無人機等交互任務學習)與增強學習(少樣本數據情況下,使用的訓練策略,包括數據增強,模型增強,聯合增強等)的區别,強化學習與有監督學習的區别等。
增強學習在大模型訓練中常常被用到,包括Deepseek中用到的RLHF強化學習人類反饋(多模态反饋整合、動态獎勵模型)、自博弈與語言模型結合、高效稀疏獎勵處理、分布式強化學習架構等。
(總結:沈來信教授)