环球电气之家-午夜精彩视频-中国专业电气电子产品行业服务网站!

產品分類

當前位置: 首頁 > 工業控制產品 > 自動化控制 > 人工智能

類型分類:
科普知識
數據分類:
人工智能

人工智能之Q Learning算法

發布日期:2022-10-09 點擊率:83

人工智能機器學習有關算法內容,請參見公眾號“科技優化生活”之前相關文章。人工智能之機器學習主要有三大類:1)分類;2)回歸;3)聚類。今天我們重點探討一下Q Learning算法。 ^_^

通過前一篇TD-Learning時序差分(請參見人工智能(48)算法介紹,我們知道,TD-Learning時序差分是結合了動態規劃DP蒙特卡洛MC(請參見人工智能(31))方法,并兼具兩種算法的優點,是強化學習的中心

TD-learning時序差分大概分了6類。其中,策略行動價值qπ的off-policy時序差分學習方法: Q-Learning(單步),Double Q-Learning(單步)。今天重點介紹Q-Learning算法

Q Learning算法是由Watkins于1989年在其博士論文中提出,是強化學習發展的里程碑,也是目前應用最為廣泛的強化學習算法。

Q Learning算法概念:

Q Learning算法是一種off-policy的強化學習算法,一種典型的與模型無關的算法,即其Q表的更新不同于選取動作時所遵循的策略,換句化說,Q表在更新的時候計算了下一個狀態的最大價值,但是取那個最大值的時候所對應的行動不依賴于當前策略。

Q Learning始終是選擇最優價值的行動,在實際項目中,Q Learning充滿了冒險性,傾向于大膽嘗試。

Q Learning算法下,目標是達到目標狀態(Goal State)并獲取最高收益,一旦到達目標狀態,最終收益保持不變。因此,目標狀態又稱之為吸收態

Q Learning算法下的agent,不知道整體的環境,知道當前狀態下可以選擇哪些動作。通常,需要構建一個即時獎勵矩陣R,用于表示從狀態s到下一個狀態s’的動作獎勵值。由即時獎勵矩陣R計算得出指導agent行動的Q矩陣

Q矩陣是agent的大腦

Q Learning算法本質

QLearning屬于TD-Learning時序差分學習。同樣,該算法結合了動態規劃和蒙特卡羅MC算法,模擬(或者經歷)一個情節,每行動一步(或多步)后,根據新狀態的價值,來估計執行前的狀態價值。

下面提到的Q-Learning是單步更新算法。

Q Learning算法描述:

Q-learning是一個突破性的算法。

利用下面公式進行off-policy學習,即用公式來表示Q-Learning中Q表的更新:

Q(St,At)←Q(St,At)+α[Rt+1+γmax Q(St+1,a)?Q(St,At)]

其中:

St: 當前狀態state

At: 從當前狀態下,采取的行動action

St+1:本次行動所產生的新一輪state

At+1: 次回action

Rt: 本次行動的獎勵reward

γ為折扣因子,0<= γ<1,γ=0表示立即回報,γ趨于1表示將來回報,γ決定時間的遠近對回報的影響程度,表示犧牲當前收益,換取長遠收益的程度。將累計回報作為評價策略優劣的評估函數。當前的回報值以及以前的回報值都可以得到,但是后續狀態的回報很難得到,因此累計回報就難以計算。而Q-learning用Q函數來代替累計回報作為評估函數,正好解決這個問題。

α為控制收斂的學習率,0< α<1。通過不斷的嘗試搜索空間,Q值會逐步趨近最佳值Q*

1Q-learning單步時序差分學習方法算法描述

Initialize Q(s,a),?s∈S,a∈A(s) arbitrarily, and Q(terminal, ˙)=0
Repeat (for each episode):
? Initialize S
? Choose A from S using policy derived from Q (e.g. ??greedy)
? Repeat (for each step of episode):
?? Take action A, observe R,S′
?? Q(S,A)←Q(S,A)+α[R+γmaxa Q(S‘,a)?Q(S,A)]
?? S←S′;
? Until S is terminal

每個episode是一個training session,且每一輪訓練意義就是加強大腦,表現形式是agent的Q矩陣元素更新。當Q習得后,可以用Q矩陣來指引agent的行動。

Q-learning使用了max,會引起一個最大化偏差(Maximization Bias)問題。
可以使用Double Q-learning可以消除這個問題。

2Double Q-learning單步時序差分學習方法算法描述

Initialize Q1(s,a) and Q2(s,a),?s∈S,a∈A(s) arbitrarily
Initialize Q1(terminal, ˙)=Q2(terminal, ˙)=0
Repeat (for each episode):
? Initialize S
? Repeat (for each step of episode):
?? Choose A from S using policy derived from Q1 and Q2 (e.g. ??greedy)
?? Take action A, observe R,S′
?? With 0.5 probability:
??? Q1(S,A)←Q1(S,A)+α[R+γQ2(S′,argmax Q1(S′,a))?Q1(S,A)]
?? Else:
??? Q2(S,A)←Q2(S,A)+α[R+γQ1(S′,argmax Q2(S′,a))?Q2(S,A)]
?? S←S′;
? Until S is terminal

Double Q Learning算法本質上是將計算Q函數進行延遲,并不是得到一條樣本就可以更新價值函數,而是一定的概率才可以更新。由原來的1條樣本做到影響決策變為多條(至少兩條)樣本影響決策。

Q Learning理論基礎:

QLearning理論基礎如下:

1)蒙特卡羅方法

2)動態規劃

3)信號系統

4)隨機逼近

5)優化控制

Q Learning算法優點:

1)所需的參數少;

2)不需要環境的模型;

3)不局限于episode task;

4)可以采用離線的實現方式;

5)可以保證收斂到 qπ。

Q Learning算法缺點:

1)    Q-learning使用了max,會引起一個最大化偏差問題;

2)    可能會出現更新速度慢;

3)    可能會出現預見能力不強。

注:使用Double Q-learning可以消除問題1);使用多步Q -learning可以消除問題2)和3)。

Q Learning算法應用:

從應用角度看,Q Learning應用領域與應用前景都是非常廣闊的,目前主要應用于動態系統、機器人控制、工廠中學習最優操作工序以及學習棋類對弈等領域。

結語:

Q Learning一種典型的與模型無關的算法,它是由Watkins于1989年在其博士論文中提出,是強化學習發展的里程碑,也是目前應用最為廣泛的強化學習算法。Q Learning始終是選擇最優價值的行動,在實際項目中,Q Learning充滿了冒險性,傾向于大膽嘗試,屬于TD-Learning時序差分學習。Q Learning算法已經被廣泛應用于動態系統、機器人控制、工廠中學習最優操作工序以及學習棋類對弈等領域。


下一篇: PLC、DCS、FCS三大控

上一篇: 索爾維全系列Solef?PV

推薦產品

更多
主站蜘蛛池模板: 水性漆|墙面漆|木器家具漆|水漆涂料_晨阳水漆官网 | 动物解剖台-成蚊接触筒-标本工具箱-负压实验台-北京哲成科技有限公司 | 臻知网大型互动问答社区-你的问题将在这里得到解答!-无锡据风网络科技有限公司 | 5L旋转蒸发器-20L-50L旋转蒸发器-上海越众仪器设备有限公司 | 轴承振动测量仪电箱-轴承测振动仪器-测试仪厂家-杭州居易电气 | 压力控制器,差压控制器,温度控制器,防爆压力控制器,防爆温度控制器,防爆差压控制器-常州天利智能控制股份有限公司 | 软文发布平台 - 云软媒网络软文直编发布营销推广平台 | 耐热钢-耐磨钢-山东聚金合金钢铸造有限公司 | 维泰克Veertek-锂电池微短路检测_锂电池腐蚀检测_锂电池漏液检测 | 广州印刷厂_广州彩印厂-广州艺彩印务有限公司 | 闪蒸干燥机-喷雾干燥机-带式干燥机-桨叶干燥机-[常州佳一干燥设备] | 排烟防火阀-消防排烟风机-正压送风口-厂家-价格-哪家好-德州鑫港旺通风设备有限公司 | 山东风淋室_201/304不锈钢风淋室净化设备厂家-盛之源风淋室厂家 翻斗式矿车|固定式矿车|曲轨侧卸式矿车|梭式矿车|矿车配件-山东卓力矿车生产厂家 | 美国PARKER齿轮泵,美国PARKER柱塞泵,美国PARKER叶片泵,美国PARKER电磁阀,美国PARKER比例阀-上海维特锐实业发展有限公司二部 | 小型手持气象站-空气负氧离子监测站-多要素微气象传感器-山东天合环境科技有限公司 | 切铝机-数控切割机-型材切割机-铝型材切割机-【昆山邓氏精密机械有限公司】 | 艺术涂料_进口艺术涂料_艺术涂料加盟_艺术涂料十大品牌 -英国蒙太奇艺术涂料 | 棉服定制/厂家/公司_棉袄订做/价格/费用-北京圣达信棉服 | 通用磨耗试验机-QUV耐候试验机|久宏实业百科 | 细砂提取机,隔膜板框泥浆污泥压滤机,螺旋洗砂机设备,轮式洗砂机械,机制砂,圆锥颚式反击式破碎机,振动筛,滚筒筛,喂料机- 上海重睿环保设备有限公司 | 低压载波电能表-单相导轨式电能表-华邦电力科技股份有限公司-智能物联网综合管理平台 | 传动滚筒,改向滚筒-淄博建凯机械科技有限公司 | 特材真空腔体_哈氏合金/镍基合金/纯镍腔体-无锡国德机械制造有限公司 | 政府园区专业委托招商平台_助力企业选址项目快速落地_东方龙商务集团 | 【甲方装饰】合肥工装公司-合肥装修设计公司,专业从事安徽办公室、店面、售楼部、餐饮店、厂房装修设计服务 | 北京自然绿环境科技发展有限公司专业生产【洗车机_加油站洗车机-全自动洗车机】 | 扫地车厂家-山西洗地机-太原电动扫地车「大同朔州吕梁晋中忻州长治晋城洗地机」山西锦力环保科技有限公司 | 真空搅拌机-行星搅拌机-双行星动力混合机-广州市番禺区源创化工设备厂 | 济南办公室装修-厂房装修-商铺装修-工装公司-山东鲁工装饰设计 | 不锈钢轴流风机,不锈钢电机-许昌光维防爆电机有限公司(原许昌光维特种电机技术有限公司) | 圆盘鞋底注塑机_连帮鞋底成型注塑机-温州天钢机械有限公司 | 胶原检测试剂盒,弹性蛋白检测试剂盒,类克ELISA试剂盒,阿达木单抗ELISA试剂盒-北京群晓科苑生物技术有限公司 | 杭州中策电线|中策电缆|中策电线|杭州中策电缆|杭州中策电缆永通集团有限公司 | 山东石英砂过滤器,除氟过滤器「价格低」-淄博胜达水处理 | 双齿辊破碎机-大型狼牙破碎机视频-对辊破碎机价格/型号图片-金联机械设备生产厂家 | 武汉创亿电气设备有限公司_电力检测设备生产厂家 | 东莞市踏板石餐饮管理有限公司_正宗桂林米粉_正宗桂林米粉加盟_桂林米粉加盟费-东莞市棒子桂林米粉 | 砂尘试验箱_淋雨试验房_冰水冲击试验箱_IPX9K淋雨试验箱_广州岳信试验设备有限公司 | 泰州物流公司_泰州货运公司_泰州物流专线-东鑫物流公司 | MES系统-WMS系统-MES定制开发-制造执行MES解决方案-罗浮云计算 | 浙江富广阀门有限公司 |