簡易用語説明【ε-greedy方策】
強化学習において最適なアクションを効率よく学習するための手法で、学習初期は学習結果(Q値)に基づいたアクションを行わずに、できるだけランダムにアクションを行い、アクションに対する結果を広く確認します。 そして学習が進むに従い学習結果に基づいたアクションを行う方法のことです。
(引用元:制御工学の基礎あれこれ)
ε-greedy方策の情報
最も一般的に使用される英文表記
|
epsilon greedy algorithm |
---|---|
音・読み
|
イプシロングリーディホウサク |
最も一般的に使用される和文表記
|
ε-greedy方策 |
別表記①
|
Epsilon-Greedy方策 |
別表記②
|
ー |
別表記③
|
ー |
G検定シラバス
|
あり |
備考欄
|
ー |