簡易用語説明【NoisyNet】
常にその時点で価値の高い行動を取り続けた場合、最初に価値が高くなった行動が取られ続け、別の行動を取る可能性がなくなってしまう。それを防ぐため元のDQNではε-greedy法と呼ばれる手法を用いている。これは一定確率で価値に依らずランダムで行動を選択することにより、選ばれる行動の可能性を広げようとするものである。
noisy networkはこの部分を改良するもので、ネットワークそのものに学習可能なパラメータと共に外乱を与え、それも含めて学習させていくことでより長期的で広範囲に探索を進めようというもの。(引用元:pytorchでnoisy networkを実装」)
NoisyNetの情報
最も一般的に使用される英文表記
|
NoisyNet |
---|---|
音・読み
|
ノイジーネットワーク |
最も一般的に使用される和文表記
|
ノイジーネットワーク |
別表記①
|
noisy network |
別表記②
|
該当なし |
別表記③
|
該当なし |
G検定シラバス
|
なし |
E資格シラバス
|
あり |
備考欄
|
ー |