深度學習和深度強化學習的區別深度學習和強化學習有什麼區別?去哪裡可以學習?

2021-03-05 09:21:43 字數 2708 閱讀 8307

1樓:潞寶妳不懂

強化學習

和深度學習是兩種技術,只不過深度學習技術可以用到強化學習上,這個就叫深度強化學習.

1.強化學習其實也是機器學習的乙個分支,但是它與我們常見的機器學習不太一樣。它講究在一系列的情景之下,通過多步恰當的決策來達到乙個目標,是一種序列多步決策的問題。

強化學習是一種標記延遲的監督學習。

2.強化學習實際上是一套很通用的解決人工智慧問題的框架,很值得大家去研究。另一方面,深度學習不僅能夠為強化學習帶來端到端優化的便利,而且使得強化學習不再受限於低維的空間中,極大地拓展了強化學習的使用範圍。

2樓:flash勝龍

強化學習要求agent去探索環境,然後對狀態進行evaluate,在每乙個狀態下agent可以選擇多種action,每次選擇的依據可以是貪婪或者softmax等,但是得到的reward是無法表明當前的選擇是正確的還是錯誤的,得到的只是乙個score,監督學習的labels可以給agent簡潔明瞭的correct or wrong,並且在agent 在對環境充分的探索前即在每一種狀態下選擇的每個action的次數不夠多時,無法充分求expect,並且在action之間也無法進行對比擇優。但是當監督學習的label資訊有雜訊干擾或者是利用一些active learning 獲得到的labels的時候,強化學習的agent與環境直接互動獲取到的資訊是更加可靠。

強化學習也是使用未標記的資料,但是可以通過某種方法知道你是離正確答案越來越近還是越來越遠(即獎懲函式)。傳統的「冷熱遊戲」(hotter or colder,是美版捉迷藏遊戲 huckle buckle beanstalk 的乙個變種)很生動的解釋了這個概念。你的朋友會事先藏好乙個東西,當你離這個東西越來越近的時候,你朋友就說熱,越來越遠的時候,你朋友會說冷。

冷或者熱就是乙個獎懲函式。半監督學習演算法就是最大化獎懲函式。可以把獎懲函式想象成正確答案的乙個延遲的、稀疏的形式。

在監督學習中,能直接得到每個輸入的對應的輸出。強化學習中,訓練一段時間後,你才能得到乙個延遲的反饋,並且只有一點提示說明你是離答案越來越遠還是越來越近。

deepmind 在自然雜誌上發表了一篇** ,介紹了他們把強化學習和深度學習結合起來,讓神經網路學著玩各種雅達利(atari)遊戲(就是各種街機遊戲),一些遊戲如打磚塊(breakout)非常成功,但是另一些遊戲比如蒙特祖瑪的復仇,就表現的很糟糕。

3樓:匿名使用者

強化學習其實也是機器學習的

乙個分支,但是它與我們常見的機器學習(比如監督學習supervised

learning)不太一樣。它講究在一系列的情景之下,通過多步恰當的決策來達到乙個目標,是一種序列多步決策的問題。強化學習是一種標記延遲的監督學習。

強化學習實際上是一套很通用的解決人工智慧問題的框架,很值得大家去研究。另一方面,深度學習不僅能夠為強化學習帶來端到端優化的便利,而且使得強化學習不再受限於低維的空間中,極大地拓展了強化學習的使用範圍。

4樓:匿名使用者

深度強化學習就是在傳統強化學習的基礎上增加了神經網路,如q-learning上加了網路變成dqn就是深度強化學習了,通過深度網路來擬合函式獲得q值,解決q-table面對連續狀態和高維動作空間時很吃力的問題。

深度學習和強化學習有什麼區別?去**可以學習?

5樓:匿名使用者

關深度學習是乙個比較專業的詞,一抓是用在資料的數理方面兒強化學習的話,只針對學生的各方面比較弱的話,強化他那一方面的學習。

深度學習和深度強化學習有什麼區別?

6樓:潞寶妳不懂

強化學習和深度學習是兩

種技術,只不過深度學習技術可以用到強化學習上,這個就叫深度強化學習.

1.強化學習其實也是機器學習的乙個分支,但是它與我們常見的機器學習不太一樣。它講究在一系列的情景之下,通過多步恰當的決策來達到乙個目標,是一種序列多步決策的問題。

強化學習是一種標記延遲的監督學習。

2.強化學習實際上是一套很通用的解決人工智慧問題的框架,很值得大家去研究。另一方面,深度學習不僅能夠為強化學習帶來端到端優化的便利,而且使得強化學習不再受限於低維的空間中,極大地拓展了強化學習的使用範圍。

如何將深度學習和強化學習結合起來

7樓:

好的回答才能獲得更多使用者支援

好的回答:

回答豐富有深度;

**結合;

格式美觀;

深度學習或強化學習在組合優化方面有哪些應用

8樓:芋丸崽

深度學習和機器學習的區別是,深度學習是機器學習研究中的乙個新的領域,其動機在於建立、模擬人腦進行分析學習的神經網路,它模仿人腦的機制來解釋資料,例如影象,聲音和文字。

深度學習或強化學習在組合優化方面有哪些應用

9樓:

強化學習其實也是機器學習的乙個分支,但是它與我們常見的機器學習(比如監督學習supervised

learning)不太一樣。它講究在一系列的情景之下,通過多步恰當的決策來達到乙個目標,是一種序列多步決策的問題。強化學習是一種標記延遲的監督學習。

強化學習實際上是一套很通用的解決人工智慧問題的框架,很值得大家去研究。另一方面,深度學習不僅能夠為強化學習帶來端到端優化的便利,而且使得強化學習不再受限於低維的空間中,極大地拓展了強化學習的使用範圍。

深度學習和機器學習是什麼關係,深度學習和機器學習的區別是什麼

深度學習是機copy器學習的乙個領域 深度學習以神經網路模型為基礎,難度比較大 目前深度學習裡面的成熟模型很多,cnn rnn gan transformer 等等 自然語言處理有bert 現在很多智慧型領域已經唯深度學習技術不用了 深度學習和機器學習的區別是什麼 兩者不是同乙個level上的,深度...

2023年,深度學習前景怎麼樣,2023年,深度學習前景怎麼樣?

中公教育it優就業 針對本科生人群 如果你是一個計算機或者人工智慧相關專業的本科生。在就業時,人工智慧其實是個很不錯的發展領域,是目前國家大力支援的熱門行業,尤其是近幾年,國家以及各個省份出臺了一系列的支援政策,比如 關於促進人工智慧和實體經濟深度融合的指導意見 新一代人工智慧治理原則 發展負責任的...

CPU和GPU跑深度學習差別有多大

gpu 的架構與 cpu 很不一樣。首先,gpu 並不具備多功能性。其次,與消費級 cpu 個位數的核心數目不同,消費級的 gpu 通常有上千個核心 特別適合處理大型資料集。由於 gpu 在設計之初有且只有乙個目的 最大化平行計算。每一代製程縮減直接帶來更多的核心數量 摩爾定律對於 gpu 更明顯 ...