摘 要
交通問題日益突出。在城市的交叉路口中,人們使用紅綠燈來控制車輛的通行,采用固定紅綠燈時間長度的方式,在不同的車輛流量情況下,會造成車輛平均等待時間過長,導致車輛的擁堵,影響整體道路的交通情況。因此,如何選擇合理方式來控制紅綠燈,對于減少交叉路口的擁堵至關重要。
在本文中,主要使用強化學習的方式來控制紅綠燈。首先,在理想場景中,通過SUMO 設置了兩種道路方式:一種是單個路口雙向四車道,一種是多個路口雙向四車道。
配置兩種車輛流量方式:一種是車輛流量恒定的方式,另一種是隨著時間變化而發生有規律變化的車輛流量的方式。此外,還添加真實場景的地圖與車輛流量。其次,在強化學習中,重新定義了狀態空間,動作空間,獎勵函數,評價指標。狀態空間是關于車輛靜止與非靜止兩種狀態的排隊長度所占道路比例的函數形式,動作空間是人為劃分紅綠燈的四個相位,獎勵函數是關于車輛平均等待時間的函數形式。在單個路口中,評價指標是所有車道的車輛平均等待時間,在多個路口中,評價指標是所有路口的車輛平均等待時間。然后,設置五種場景,分別是單個路口的車輛流量恒定,單個路口的車輛流量變化,多個路口的車輛流量恒定,多個路口的車輛流量變化,真實場景的多路口。最后,選擇固定紅綠燈時間長度,半固定紅綠燈時間長度,Q-Learning 算法,策略梯度算法,A3C 算法五種方式進行仿真模擬。實驗結果表明:A3C 算法的車輛平均等待時間均小于其他四種方式下的車輛平均等待時間。驗證 A3C 算法在不同的路口,不同的車輛流量情況下,減少車輛的平均等待時間,能夠緩解交通的擁堵,在交通信號燈調度中具有高效性與優越性。
關鍵詞:SUMO;強化學習;Q-Learning;策略梯度;A3C
Abstract
With the rapid development of the national economy, the scale of the city continues to expand, the number of population and vehicle flow continues to increase, and the traffic problem has become increasingly prominent. In urban intersections, people use traffic lights to control the traffic of vehicles, and adopt the way of fixed time length of traffic lights. Under different traffic flow conditions, the average waiting time of vehicles will be too long, which will lead to vehicle congestion and affect the overall road traffic situation. Therefore, how to choose a reasonable way to control the traffic lights is very important to reduce the congestion of intersections.
In this thesis, we mainly use reinforcement learning to control traffic lights. Firstly, in the ideal scene, two road modes are set up through sumo: one is two-way four lanes at a single intersection, and the other is two-way four lanes at multiple intersections. Two vehicle flow modes are configured: one is the mode of constant vehicle flow, and the other is the mode of regular vehicle flow changing with time. In addition, the map of real scene and vehicle flow are added. Secondly, in reinforcement learning, state space, action space, reward function and evaluation index are redefined. The state space is a function of the proportion of the queue length of the stationary and non-stationary vehicles in the road, the action space is a function of the four phases of the traffic lights, and the reward function is a function of the average waiting time of the vehicles. In a single intersection, the evaluation index is the average waiting time of vehicles in all lanes. In multiple intersections, the evaluation index is the average waiting time of vehicles in all intersections. Then, five scenarios are set, namely, the vehicle flow at a single intersection is constant, the vehicle flow at a single intersection changes, the vehicle flow at multiple intersections is constant, the vehicle flow at multiple intersections changes, and the real scene of multiple intersections. Finally, we choose five ways to simulate: fixed traffic light time length, semi fixed traffic light time length, Q-learning algorithm, strategy gradient algorithm and A3C algorithm. The experimental results show that the average waiting time of A3C algorithm is less than that of the other four modes. It is verified that A3C algorithm can reduce the average waiting time of vehicles in different intersections and different vehicle flows, alleviate traffic congestion, and has high efficiency and superiority in traffic signal scheduling.
Key Words:SUMO; Reinforcement Learning; Q-Learning; Policy Gradient; A3C
目 錄
1 緒論
1.1 研究背景與意義
1.1.1 我國城市道路交通目前現狀
伴隨著中國經濟的快速發展,許多城市的規模在不斷擴大,大量的人們涌進城市,人們的物質生活水平在不斷地提高。然而,在城市的快速發展的背后,也存在一系列的問題,如空氣污染,道路擁堵等。在城市交通道路中,道路變得越來越擁擠,主要有如下的原因:
。1) 城市道路規劃的限制,以前規劃城市道路的時候,主要考慮的是當下以及以后一段時間的交通狀況,比如在車輛相對繁忙路段設置四車道,車輛相對稀少路段設置兩車道,后來車輛數量的急劇增加,導致車道異常擁堵。城市地形的限制和居民建筑的限制,比如在城市的大山里開鑿隧道,在河流上面架設橋梁,繞過大量居民居住區規劃道路,這些因素使城市的交通道路變得繁忙擁擠。
。2) 車輛的數目和種類的增加,以前只有一部分人擁有車輛。而現在隨著人們對車輛的需求增加,越來越多的人們開始購買車輛,使生活更加便利。大量的車輛行駛在城市道路上面,尤其是在上下班的高峰期,更是加劇了道路的擁擠。
。3) 城市人口的快速增長,隨著城鎮化的浪潮,許多世代居住在農村的人們開始向城市遷移,大城市更是憑借自己的區位優勢,醫療資源,地理優勢等,變成人口百萬級別,甚至千萬級別的大都市。人們的大量出行勢必導致道路的擁擠。
不過,在解決城市道路交通擁擠的過程中,許多城市也提出不同的解決辦法。人們通過修建軌道交通,改變的人們的出行方式,提高人們的出行質量,同時提出一系列的相關措施,車牌單雙號限行,減少在道路上行駛的車輛數目。此外還規定人們搖號獲取車牌,減少擁有車牌人數的數目。還嚴格設置在規定道路上允許某一類車牌車輛行駛,從而在規定道路上減少車輛的擁堵,來緩解城市的道路擁堵情況。
1.1.2 交通信號調度的意義
城市管理者已經采取了各種措施來緩解道路擁堵,取得了有效的成果。在城市交通道路中,造成擁堵的地方大多數位于道路的交叉口與轉彎處,車輛需要在道路交叉口暫時停下來,等待紅綠燈的調度,這無疑增加了車輛通過這段道路的時間。如何縮短車輛通過道路的時間尤為重要,這將不僅會影響自己車輛通過時間,還會產生連鎖反應,還會影響其他附近車輛的等待時間。
交通信號燈在城市交通道路中扮演著一個指揮者的角色。在交錯復雜的城市道路中,車輛的行駛總是會受到其他車輛和道路的影響。每一輛車都希望自己能快速通過路口,但是往往容易堵在路口附近,進退兩難。這時候交通信號燈能夠指揮車輛的行進,什么時候停下來,什么時候快速通過。要是沒有交通信號燈,每一輛車都想著快速通過,來自四面八方的車輛匯聚在一起,道路會變得混亂起來,甚至還會出現車輛碰撞,出現車禍的情況。交通信號調度的意義就在于:如何使車輛快速通過交叉路口,減少車輛的等待時間。同時合理規劃紅綠燈的時長,比如在車輛繁忙的車道上面設置相對長的綠燈時長,在車輛稀少的車道上面設置相對短的綠燈時長。
1.2 國內外的研究現狀
交通信號燈可以追溯于 19 世紀的第二次工業革命,為了解決在交叉路口常常會出現交通堵塞和交通事故的問題,1868 年的英國著名發明家奈特設計了一種只有紅綠兩種顏色的交通信號燈,有效引導馬車和行人通行。這使交通信號燈第一次在道路上大展拳腳,引導著后來人對交通信號燈的研究[1].后來,面對紅綠燈的交替運行,會遇到人或者車輛恰好走到一半的時候,交通信號燈發生改變,需要一定的緩沖時間,因此開始出現紅綠黃的三色紅綠燈,這種交通信號燈逐漸出現在美國紐約,英國倫敦的街頭上,這種三色類型的紅綠燈直到今天仍在使用。
交通信號燈剛開始出現時候,非常簡單,十分簡陋。隨著 20 世紀初期的經濟繁榮,汽車開始行駛道路上,人們的出行需求進一步增加,原來的信號交通等越發顯得愚笨。
電力的出現和機械的發展更是推動著交通信號燈的發展,1926 年,工程師設計并制造了機械式交通信號機,它的動力來源是電動機的運轉,通過機械齒輪的精密旋轉來控制交通信號燈的三色時長[2].
后來,計算機的出現更是為交通信號燈的高度智能化奠定了基礎。城市間的交通信號燈和道路并不是孤立的,而是一個有機結合的整體。一條道路的擁擠會導致相關道路的擁擠,一個交叉路口的交通信號燈也會影響其他的交叉路口。交通信號控制系統的出現更是為了解決城市的大規模交通調度的問題。下面是幾個具有顯著特性和代表性的交通信號控制系統:
。1) TRANSYT (Traffic Network Tool)系統[3],是由英國羅伯遜先生于 1966 年提出的,它是一種定時式脫機操作交通信號控制系統,是由仿真模型和優化部分組成的。首先根據日常生活經驗進行初始信號的配時,將道路的各種交通流信息傳入到仿真模型中,通過輸出性能指標,道路網絡內的延誤及停車次數等來評估仿真模型的好壞。同時還需要一個優化過程,將獲得的性能指標,傳入的優化數據,通過爬山法產生新的信號配時,讓仿真模型使用。這是一套完整的靜態系統,但是由于這是固定式的信號配時策略,交通信號燈在不同車流的情況下不能夠很好進行調度,從而導致道路的擁擠[4]. (2) SCOOT(Split Cycle Offset Optimizing Technique)系統[5],是由英國運輸與道路研究所在 70 年代提出的,主要是關于調節綠信比[6],周期,利用相位差技術。綠信比是在一個周期內,綠燈時長的比例,即允許車輛通行的時間占一個周期的比例。通過車輛檢測器獲得道路的車輛行駛狀況,利用交通模型和調節模型的參數來實現信號配時的策略。
SCOOT 系統需要計數檢測器和占有率檢測器等一系列相關的檢測器,因此是一種能夠實時檢測的自適應控制系統。不過,它高度依賴于數學模型的仿真,需要數學模型精確考慮到道路的各種狀況。而事實上,道路的情況復雜多變,會與數學模型的仿真存在一定范圍的誤差,存在相關的問題。
。3) SCATS(Sydney Coordinated Adaptive Traffic System)[7],是由澳大利亞新南威爾士州道路交通局(RTA)在 70 年代提出并成功應用到悉尼的道路上。不同于集中控制的SCOOT 系統,SCATS 是一種分層的實時交通信號燈系統[8].它的中央控制級是核心部分,只需要用一臺控制計算機就可以控制上百個路口。信號周期,綠信比也是 SCATS系統調節的目標,通過三級的層層控制來減少道路的擁堵情況。盡管 SCATS 系統有著簡單,方便,快捷,高效的特點,但是沒有合適的交通模型和檢測器的過少,使得 SCATS系統信號燈調度的性能稍微偏差。到現在為止,SCATS 系統憑借自己的性價比在很多發達國家和發展中國家大受歡迎。
硬件的設備提高與交通控制系統的完善,更是促進交通信號燈越來越完善。國內外學者也將目光投入到如何使用各類算法來調節交通信號燈,來適應越來越復雜的道路情況。從國外對交通信號燈的研究來看:Webster 和 Miller A. J 兩位學者通過對交通信號燈的研究,優化了車輛的平均等待的時間,提出在固定周期內交通信號燈算法[9].
Pappis C. P 和 Mamdam E. H 通過將模糊控制算法引入到交通信號燈調度中,取得了顯著的成果[10].Chen X. F 等人將遺傳算法引入到交通信號燈的配時策略中,從而優化車輛的平均等待時間[11].Abdulhai B 等人利用強化學習進行交通信號燈的調度,強化學習在交通信號燈的舞臺上大展拳腳[12].Grandinetti P 等人通過構建網絡對多個道路進行建立模型,仿真模擬[13].在國內,盡管對交通信號燈的開始研究時間相對稍晚,但是對交通信號燈的研究也是如火如荼。沈國江將神經網絡與模糊控制算法相結合,優化目標平均車輛的耽誤時間,來對信號交通的綠信比等關鍵因素實行對應的策略[14].馮遠靜等人采用模擬退火算法與綠波協調控制相結合的方法,來針對交通信號燈的調度[15].閆東宇等人優化交通信號燈的控制,使用攝像傳感技術獲取道路信息,然后加入模糊控制技術,從而減少道路的交通擁堵[16].從這些國內外的研究中,交通信號燈調度算法都主要集中在模糊控制[17,18],神經網絡[19,20],遺傳算法[21,22],強化學習[23,24]上面。
1.3 研究思路
交通信號調度是一個復雜的系統,在系統中,不同的道路上有不同的車輛流量,車輛流量受到各種因素的影響,如天氣,節日,車禍等。在考慮交通信號調度的問題中,應該盡可能要與實際情況相符合,而不是完全設定為理想化的情況。后來,我們采用SUMO 這種交通系統模擬仿真軟件。通過對相應的參數進行調節,改變道路或者車輛流量的情況,去模擬仿真現實的道路場景與環境。
我們選擇 SUMO 這種合適的工具,還需要考慮使用什么算法。在本文中,采用強化學習的方法進行交通信號的調度,是因為強化學習的發展如火如荼,提出了各種各樣的方法,強化學習所需要的環境與智能體完美地對應著 SUMO 環境和紅綠燈。狀態空間,動作空間,獎勵函數都可以有不同的定義。因此,在本文中,主基調是強化學習與計算機仿真的結合。在強化學習中,主要可以分為兩類,一類是以值函數為代表的Q-Learning 算法,將 Q-Learning 算法與深度學習相結合的 DQN 算法;另一類從策略出發的策略梯度算法,有基準的 Reinforce 算法。我們首先采取 Q-Learning 算法和策略梯度算法,參與到計算機的交通模擬仿真中,結果發現在 Q-Learning 算法中,交叉路口的狀態空間的維數多,建立相對應的 Q 表并且訓練 Q 表,將其收斂是一個復雜的問題,難以做到。在策略梯度算法中,是一種一個回合才更新的算法,這就說明訓練是一個收斂極慢的過程。將兩者結合起來,就是 Actor-Critic 算法,建立兩個神經網絡,進行模型訓練,有效避免上述兩個問題。后來又發展 A3C 算法,通過多線程異步的方式加快訓練速度和收斂速度。為此,我們計劃建立不同的道路場景的仿真模型,并將基于 A3C算法的交通燈調度策略與固定時長交通燈、Q-Learning 算法以及策略梯度相比較,通過評價指標來說明 A3C 算法能夠緩解交通的擁堵情況。
1.4 本文章節
安排本文一共劃分為 5 章,每一章的內容與結構如下:
第 1 章是緒論,主要是關于交通信號燈調度主題的研究背景與意義,國內外的研究現狀和研究思路,從總體上展示本文的全貌。
第 2 章是基礎知識簡介,主要是關于強化學習,Q-Learning 算法,策略梯度算法,A3C 算法與神經網絡的知識,是本文的理論基礎。
第 3 章是 A3C 算法交通信號燈控制策略設計,主要是關于在 SUMO 軟件中,路網與車輛流量的設計,設置了五種不同的道路場景。與此同時,把強化學習的重要因素與SUMO 軟件相結合,定義狀態空間,動作空間,獎勵值等。
第 4 章是實驗及實驗結果分析,主要是關于模型的介紹與定義評價指標。在五種不同的道路場景中,運用四種或者兩種信號交通燈的調度方式,得到車輛平均等待時間的相關數據,并將這些數據以折線圖,箱線圖,四分位數表的形式展示出來。
第 5 章是結論與局限性,主要是關于對本文所作實驗得出完整的結論和對本文中的不足進行探討。
2 基礎知識簡介
2.1 強化學習基礎
2.1.1 強化學習的介紹
2.1.2 馬爾可夫決策過程
2.2 Q-Learning 算法
2.3 策略梯度算法
2.4 強化學習的 AC 算法
2.4.1 AC 算法的簡單介紹
2.4.2 A3C 算法的應用
2.5 深度學習的簡單介紹
2.5.1 神經網絡
2.5.2 卷積層
2.5.3 池化層
2.5.3 全連接層
3 A3C 算法信號交通燈控制策略設計
3.1 A3C 算法的設計控制方案
3.2 交通系統仿真軟件 SUMO
3.3 道路設計與車輛設計
3.3.1 道路設計
3.3.1 車輛設計
3.4 單個路口的車輛流量
3.4.1 單個路口車輛流量恒定的展示
3.4.2 單個路口車輛流量變化的展示
3.5 多個路口的車輛流量
3.5.1 多個路口車輛流量恒定的展示
3.5.2 多個路口車輛流量變化的展示
3.6 強化學習要素的定義
3.6.1 強化學習的要素
3.6.2 狀態空間的定義
3.6.3 動作空間的定義
3.6.4 獎勵值的定義
4 實驗及實驗結果分析
4.1 模型訓練與評價指標
4.2 單個路口的車輛流量恒定的實驗結果展示
4.3 單個路口的車輛流量變化的實驗結果展示
4.4 多個路口的車輛流量恒定的實驗結果展示
4.5 多個路口的車輛流量變化的實驗結果展示
4.6 真實場景交通信號燈調度的實驗結果展示
5 結論與局限性
5.1 研究結論及創新點
5.1.1 研究結論
在本文中,通過 SUMO 建立道路場景和車輛流量形式,將強化學習引入到交通信號調度中,以 SUMO 為環境,包括道路,車輛等事物,建立以車輛信息相關的狀態空間。以紅綠燈為智能體,建立四個相位的動作空間。將車輛的平均等待時間的函數形式作為獎勵函數。環境與智能體不斷地進行交互,進行模型的訓練與學習。
我使用了五個道路場景,五種調度紅綠燈的方式。在單個路口的車輛流量恒定情況下,四種方式的車輛平均等待時間排列大小為:固定紅綠燈時間長度 > 策略梯度算法 > Q-Learning 算法 > A3C 算法。由于 Q-Learning 算法的狀態空間過大和策略梯度算法的回合更新,導致這兩種算法很難有效地收斂,后續不再采用這兩種算法。A3C 算法的車輛平均等待時間約為固定紅綠燈時間長度方式下的 33%.在單個路口的車輛流量變化情況下,A3C 算法的車輛平均等待時間約為半固定紅綠燈時間長度方式下的 47%.在多個路口的車輛流量恒定情況下,評價指標是多個路口中車輛平均等待時間的平均值,A3C算法的車輛平均等待時間約為固定紅綠燈時間長度方式下的 45%.在多個路口的車輛流量變化情況下,A3C 算法的車輛平均等待時間約為半固定紅綠燈時間長度方式下的 47%.
在真實場景的情況下,A3C 算法的車輛平均等待時間約為固定紅綠燈時間長度方式下的38%.由此可以看出,A3C 算法在單個路口或者多個路口,車輛流量恒定或者變化,還是在真實場景中,車輛平均等待時間總是小于最優固定紅綠燈時間長度或者最優半固定紅綠燈時間長度的方式。A3C 算法的效率在單個路口場景高于多個路口場景,這是因為單個路口簡單,沒有多個路口的復雜性與聯動性,選擇最優的紅綠燈時間更加容易,而且就是根據車輛流量在各個相位中的比例,小范圍進行篩選。而多路口中,由于路口與路口之間相互影響,車輛流量在各個相位中的比例飄忽不定,A3C 算法并不能完全按照獎勵函數最大的方向進行,因此 A3C 算法在單個路口中減少車輛平均等待時間尤為明顯?偟膩碚f,A3C 算法大大減少車輛平均等待時間,減少道路的交通擁擠狀況。
5.1.2 創新點
本文中有以下幾個創新點:
。1) 將 SUMO 與強化學習相結合,通過仿真模擬的方式進行交通信號的調度。在SUMO 中,更有可視化的界面去看待車輛的變化和紅綠燈相位的轉變。
。2) 對于狀態空間,獎勵函數的選擇做了充分的考慮。在狀態空間中,根據不同狀態下的車輛對交通狀況的影響分配了不停的權重,影響越大,權重也越大。在獎勵函數中,充分考慮每一條進入紅綠燈道路的信息,對不擁堵的車道較大的獎勵,對擁堵的車道較小的獎勵。
。3) 在選擇強化學習的方法中,選擇相對簡單的 Q-Learning 算法和策略梯度算法,并對它們進行分析處理,層層遞進,選擇合適的 A3C 算法。通過將 A3C 算法與固定紅綠燈時間長度,半固定紅綠燈時間長度相比較,說明 A3C 算法的效果顯著。
5.2 局限性
在本文中,有以下幾個局限性:
。1) 道路場景的局限性,多個路口是單個路口程正方形排列的,在實際生活中,多個路口是有各種各樣的類型,如圓盤形的路口。道路場景還應該有行人,天橋等各種因素。
。2) 車輛流量設置的局限性。車輛流量的變化主要是根據一天時間的變化而發生相應的變化,實際上。車輛流量的變化會受到多種因素的影響。車輛流量的變化時一種時斷時續的間歇性變化,而不是在本文中在某個時間段車輛流量恒定的情況。
。3) 強化學習方法的局限性。在本文中,將深度學習作為建立神經網絡的工具。我還應該多嘗試更多強化學習方法,尤其深度強化學習方面的算法,如 DDPG,DQN 等各種算法。
參 考 文 獻
[1] 石建軍,宋儷婧,于泉,F代交通控制相關技術的發展趨勢分析[J].公路交通科技。2006,(9):113-117.
[2] 楊祖元。城市交通信號系統智能控制策略研究[D].重慶大學,2008.
[3] Chiou S W. An efficient algorithm for computing traffic equilibria using TRANSYTmode[J]. Applied Mathematical Modelling,2010,34(11):3390-3399.
[4] 朱明浩。城市道路干線綠波協調控制研究及效果評價[D].北京工業大學城市交通學院,2016.
[5] P.B.Hunt, D.I.Robertson, R.D.Bretherton and M.C.Royle. The SCOOT on-line trafficsignal optimisation technique[J]. Traffic Engineering&Control,1982, 23(4):5-12.
[6] Hunter M P, Wu S K, Kim H K. A probe-vehicle-based evaluation of adaptive trafficsignal control[J]. IEEE Transactions on Intelligent Transportation Systems,2012,13(2):704-713.
[7] J.Y.K.Luk. Two traffic-responsive area traffic control methods: SCAT and SCOOT[J].Traffic engineering&control,1984,25(1):14-22.
[8] Makys M, Kozak S. Effective method for design of traffic lights control[J]. IFACProceedings Volumes,2011,44(1):14934-14939.
[9] Miller A.J. Settings for fixed-cycle traffic signals[J]. Oper.Res.Quart.1963,14(4):373-386.
[10] Pappis C.P, Mamdam E.H. A Fuzzy Logic Controller for a Traffic Junction[J]. IEEETransactions on Systems Man and Cygernetics.1977,1(10):707-717.
[11] Chen X. F, Shi Z.K. Real-coded genetic algorithm for signal timings optimizationof a signal intersection[C]. Proceeding of first international conference onmachine learning and cybernetics, Beijing,2002:1245-1248.
[12] Abdulhai B, Pringle R. Karakoulas G.J. Reinforcement learning for true adaptivetraffic signal control[J]. Journal of Transportation Engineering,2003;129(3):278-285.
[13] Grandinetti P, Canudas-De-Wit C, Garin F. Distributed Optimal Traffic Lights Designfor Large-Scale Urban Networks[J]. IEEE Transactions on Control SystemsTechnology,2018,PP(99):1-14.
[14] 沈國江。城市道路交通智能控制技術研究[D]:[博士學位論文].杭州:浙江大學信息科學與工程學院,2004.
[15] 馮遠靜,單敏,樂浩成等。綠波協調控制的子區動態劃分算法[J].控制理論與應用,2014,31(8):1034-1046.
[16] 閆東宇,邢雙云,操峻巖,廉甘霖。交通信號燈優化控制[J].科技與創新,2018(03):16-18.
[17] 李士勇。模糊控制[M].哈爾濱工業大學出版社,2011.
[18] 李曉娜。單交叉口自適應控制方法的研究[D].大連理工大學,2006.
[19] 沈國江。城市道路交通智能控制技術研究[D]:[博士學位論文].杭州:浙江大學信息科學與工程學院,2004.
[20] 潘衛國,陳英昊,劉博等; Faster-RCNN 的交通信號燈檢測與識別[J].傳感器與微系統,2019(9):147-149[21] Ceylan H, Bell M G H. Traffic signal timing optimization based on genetic algorithmapproach, including drivers' routing[J]. Transportation Research Part BMethodological,2004,38(4):329-342.
[22] 陳小鋒,史忠科;谶z傳算法的交通信號動態優化方法。系統仿真學報[J].2004,06:1155.
[23] Balaji P G, German X, Srinivasan D. Urban traffic signal control using reinforcementlearning agents[J]. IET Intelligent Transport System,2010,4(3):1 77-188.
[24] Ozan C., Baskan O., Haldenbilen S.&Ceylan H. A modified reinforcement learningalgorithm for solving coordinated signalized networks[J]. Transportation ResearchPart C: Emerging Technologies,2015,54:40-55.
[25] 周志華。機器學習[M].北京:清華大學出版社,2016.
[26] 李航。統計學習方法[M].北京:清華大學出版社,2012.
[27] Sutton R S, Barto A G. Reinforcement learning: An introduction[J]. IEEETransactions on Neural Networks,1998,9(5):1054-1054.
[28] Watkins C J C H, Dayan P. Technical note: Q-Learning[J]. Machine Learning,1992,8(3-4):279-292.
[29] Anderson C W. Q-learning with hidden-unit restarting[C]. Advances in NeuralInformation Processing Systems.1993:81-88[30] Puterman M L. Markov decision processes: discrete stochastic dynamicprogramming[M]. John Wiley&Sons,2014.
[31] Williams R J. Simple statistical gradient-following algorithms for connectionistreinforcement learning[J]. Machinelearning,1992,8(3-4):229-256.
[32] Chin Y K, Bolong N, Kiring A. Q-learning based traffic optimization in managementof signal timing plan[J]. International Journal of Simulation, Systems,Science&Technology,2011,12(3):29-35.
[33] Liu Y, Chen W P. Intelligent Traffic Light Control Using Distributed Multi-agentQ Learning[J]. Nature,2017,550(7676):354-359.
[34] Wang F Y. Agent-Based Control for Networked Traffic Management Systems[J]. IEEEIntelligent Systems,2005,20(5):92-96.
[35] Li L, Wen D. Parallel Systems for Traffic Control: A Rethinking[J]. IEEETransactions on Intelligent Transportation Systems,2016,17(4):1179-1182.
[36] Schulman J, Wolski F, Dhariwal P. Proximal Policy Optimization Algorithms[J].Machine Learning,2017.
[37] Mnih V, Kavukcuoglu K, Silver D. Playing Atari with Deep Reinforcement Learning[J].Computer Science,2013.
[38] Van Hasselt H, Guez A, Silver D. Deep Reinforcement Learning with DoubleQ-learning[J]. Computer Science,2015.
[39] Richter S., Aberdeen D, Yu J. Natural actor-critic for road traffic optimization[C].Neural information processing systems.2007:1169-1176.
[40] Mousavi S, Schukat M, Howley E. Traffic light control using deep policy-gradientand value-function-based reinforcement learning[J]. IET Intelligent TransportSystems,2017,11(7):417-423.
[41] Mnih V, Badia A P, Mirza M. Asynchronous methods for deep reinforcementlearning[C]. International conference on machine learning.2016:1928-1937.
[42] Krizhevsky A, Sutskever I, Hinton G E. Imagenet classification with deepconvolutional neural networks[C]. Advances in neural information processingsystems.2012:1097-1105.
[43] Simonyan K, Zisserman A. Very deep convolutional networks for large-scale imagerecognition[J]. arXiv preprint arXiv:1409.1556,2014.
[44] Szegedy C, Vanhoucke V, Ioffe S. Rethinking the inception architecture for computervision[C]. Proceedings of the IEEE conference on computer vision and patternrecognition.2016:2818-2826.
[45] Krajzewicz D, Erdmann J, Behrisch M. Recent development and applications ofSUMO-Simulation of Urban MObility[J]. International Journal on Advances in Systemsand Measurements,2012,5(3&4)。
[46] 盧晨卿;趨f同優化的智能交通配時系統的研究[D].[碩士論文].沈陽:沈陽理工大學,2018.
[47] Kosonen I. Multi-agent fuzzy signal control based on real-time simulation[J].Transportation Research Part C: Emerging Technologies,2003,11(5):389-403.
[48] Garcia-Nieto J, Alba E, Olivera A C. Swarm intelligence for traffic light scheduling:Application to real urban areas[J]. Engineering Applications of ArtificialIntelligence,2012,25(2):274-283.
[49] GB/T 33171-2016.城市交通運行狀況評價規范[S].2016.10.13.
[50] Abdulhai, Baher Pringle, Rob Karakoulas, Grigoris J. Reinforcement learning fortrue adaptive traffic signal control: Proceedings of the American Society of CivilEngineers[J]. Journal of Transportation Engineering,2003, Vol.129:278.
[51] Lu S, Liu X, Dai S. Q-Learning for Adaptive Traffic Signal Control Based onDelay Minimization Strategy[C]. World Congress on Intelligent Control&Automation.IEEE,2008:687691
致 謝
光陰似箭,日月如梭,三年的研究生時光馬上就要過去;叵胱约嚎佳械臅r候,大連理工大學是自己心儀的學校,為了考上大工的研究生,抓緊時間奮力備戰,揮灑汗水,成功上岸。當踏入學校的大門,自己已經是這里的一份子,在這里將度過人生美好的三年學習生涯。在這研究生的三年時光中,夯實專業知識,提高學業技能,積極拓取,奮發向上,完成從本科生到研究生的轉變。值此之際,對于大連理工大學,我的導師,我的同學,我的親人,我深懷感激之情,正是因為你們,我的研究生生活才會變得如此美好。
首先我要感謝大連理工大學和我的導師鄒廣宇老師,大連理工大學是是一個溫暖的大家庭,給我提供學習與成長的環境。在學校的庇護下,我能夠安心地學習知識,提高自己的能力。我的導師鄒廣宇老師學識淵博,知識豐富,治學嚴謹,在做學問方面,追求實事求是;在教導學生方面循循善誘。在我的學業上,鄒老師給予我充分的指導,從入學時的規劃,到論文的選題,最后到論文的定稿。鄒老師充分尊重我的個人興趣愛好和自己的發展方向,自己希望從事程序員方面的工作,鄒老師耐心地指導我 Java 基礎課程,數據結構,自己收獲頗豐。在跟隨鄒老師學習的三年中,我從初入門的小白,到現在的基本熟練掌握知識技能。在研究生的三年時光中,我心里飽含著對大連理工大學的教誨和鄒老師的教導的感激之情。
其次我要感謝基礎教學部的各位老師,在基礎教學部中,各位老師都給予我莫大的幫助。其中有教金融數學的于波老師,教應用回歸分析的劉鳳楠老師,教 R 語言與統計軟件的胡小草老師等。各位老師指導我的專業知識,指點迷津,給予我學業上的幫助。
此外,還有基礎教學部的各位同學,大家三年和諧相處,造了基礎教學部和諧有愛的學術氛圍和生活氛圍。已經畢業的學長與學姐給我選擇就業方向的建議,各位同學在我學業困惑時,給我幫助。值此之際,祝愿所有的同學前途似錦,飛黃騰達。
最后我要感謝我的親人。我父母從本科到研究生都默默支持我追求更高水平的學業,他們為了我的成長操勞著,始終是我堅實的后盾,是我心里溫馨的港灣。在研究生即將結束的時候,我已經能夠獨立生活,為了自己的理想事業而奮斗,為了自己的家幸福生活而努力。
(如您需要查看本篇畢業設計全文,請您聯系客服索。