強化学習の枠組みにおいて,人からの主観評価をシステムに与えて最適化を行う試みは行われています.センサ情報のみからでは見出すことが困難な評価を得ることができ,客観評価より学習促進が行われる可能性が示されていますが,人からの教示は個人によりその教示の量や期間,信頼性が異なるために,ロボットの行動に対して一貫性ある基準に基づいた相対的な数値評価を正確に得ることは困難です.そこで,簡単に教示を与えながらも,人の意図に沿う行動が出来る枠組みを考える必要があると考えます.
行動分析学においては,報酬を得ることにより行動が強化されるだけでなく,罰を与えることにより行動が弱化されることが示されていますが,このような行動の抑制に焦点を当てた研究はほとんどありません.我々も以前,タスク達成と失敗の尤度を独立に求めることにより学習機械の設計者への負担を軽減する試みについて報告しています
そこで本研究では,報酬とは独立に,人がロボットによる望ましくない行動に対して評価を与える新しい強化学習モデルを提案しています.このような行動を抑制する評価を罰と呼び,エージェントの各エピソードに対して報酬と罰の2 つの信号を与えることで,行動を促進あるいは回避するように行動の選択確率を更新し学習します.この報酬と罰の教示が,明示的な評価でありながらかつ教示者への負担が少なく,報酬関数のみの場合と比較して目的行動への収束が早いことを明らかにすることを目指します.また,提案手法の有効性を検証するために犬型ロボットを製作し,人との物理的な相互作用が生じる環境において,本手法の優位性を実証しています.
年度: 2013-
メンバー:
田中 爽太
鈴木 健嗣
共同研究:
Tags:
- 認知ロボティクス
- 次世代知能化技術
本研究の一部は,文部科学省科学研究費補助金の支援を受けて行われております.
|
|
|
|