dahara1

学習手法

深層強化学習を使って半導体チップの設計を自動化

1.深層強化学習を使って半導体チップの設計を自動化 ・機械学習に専用ハードウェアを使用する事が増えているがチップ設計に数年単位の時間がかかる ・チップ設計を強化学習に行わせて、過去の経験から学び、時間をかけて改善するアプローチを実現 ・これ...
入門/解説

2020年4月26日時点の日本のCOVID-19 Community Mobility Reports

1.2020年4月26日時点の日本のCOVID-19 Community Mobility Reportsまとめ ・COVID-19 Community Mobility Reportsが4月26日(日)時点版として更新 ・4月16日に緊急...
入門/解説

Google翻訳が性別を決めつけてしまう訳を減らす仕組みを拡大

1.Google翻訳が性別を決めつけてしまう訳を減らす仕組みを拡大まとめ ・Google翻訳は性別固有の表現を持たない言語と持つ言語間で翻訳する際に性別を決めつけてしまう事がある ・2018年12月に「性別固有の翻訳」の仕組みを取り入れたが...
モデル

ロボット工学における進化的メタラーニングの探索(3/3)

1.ロボット工学における進化的メタラーニングの探索(3/3)まとめ ・ES-MAMLは優れたパフォーマンスを持つが現実世界に展開する事は依然として困難 ・現実世界のデータをできるだけ少なくするために、新規にバッチ山登り法を導入 ・その結果、...
モデル

ロボット工学における進化的メタラーニングの探索(2/3)

1.ロボット工学における進化的メタラーニングの探索(2/3)まとめ ・MAMLの代わりに進化的戦略であるES-MAMLを使うと確率性に関する競合を回避できる ・ESはパラメータが少ないため展開が容易で電力効率が高く効率的でコンパクトな学習が...
モデル

ロボット工学における進化的メタラーニングの探索(1/3)

1.ロボット工学における進化的メタラーニングの探索(1/3)まとめ ・シミュレーションによりロボットのトレーニングは実現しやすくなったがギャップが存在 ・シミュレーション環境と現実世界の間に存在する微妙なギャップで意図した通りに動かない ・...
入門/解説

無限に続く行動履歴を学習可能な強化学習のオフポリシー評価(2/2)

1.無限に続く行動履歴を学習可能な強化学習のオフポリシー評価(2/2)まとめ ・定常分布がわからなくても重みの分布がターゲットポリシーの分布が持つ属性を満たす確認すれば良い ・「トリッキー」な数学的手法を使い履歴データからターゲットポリシー...
入門/解説

無限に続く行動履歴を学習可能な強化学習のオフポリシー評価(1/2)

1.無限に続く行動履歴を学習可能な強化学習のオフポリシー評価(1/2)まとめ ・強化学習は広く使われているが過去の履歴データ、つまりオフポリシーで性能評価をする事は難しい ・履歴データを収集したエージェントと性能評価されるエージェントが異な...
入門/解説

2020年4月17日時点の日本のCOVID-19 Community Mobility Reports

1.2020年4月17日時点の日本のCOVID-19 Community Mobility Reportsまとめ ・COVID-19 Community Mobility Reportsが2020年4月23日に4月17日(金)時点版として更...
モデル

EfficientDet:規模の拡張が容易で効率的な物体検出ネットワーク(2/2)

1.EfficientDet:規模の拡張が容易で効率的な物体検出ネットワーク(2/2)まとめ ・EfficientDetは物体検出器の解像度/深さ/幅を一緒に拡大する、新しい複合スケーリング手法を採用 ・三つの最適化の結果、従来の最先端モデ...
モデル

EfficientDet:規模の拡張が容易で効率的な物体検出ネットワーク(1/2)

1.EfficientDet:規模の拡張が容易で効率的な物体検出ネットワーク(1/2)まとめ ・物体検出アプリケーションは様々な場所で必要とされるため計算能力の限界など様々な制約を受ける ・様々な制約にも適応できる正確で効率的な物体検出アプ...
学習手法

オフライン強化学習に関する楽観的な見解(2/2)

1.オフライン強化学習に関する楽観的な見解(2/2)まとめ ・教師あり学習のアンサンブル手法を応用してREMと言う新しい強化学習アルゴリズムを開発 ・REMはオフライン設定とオンライン設定で比較するとオフライン設定の方が高い性能を出せていた...