人工知能/機械学習

WIT：ウィキペディアベースの画像-テキストデータセット(2/2)

１．WIT：ウィキペディアベースの画像-テキストデータセット(2/2)まとめ・WITは108言語のデータを備えた、初の大規模多言語マルチモーダルデータセット・WITは文脈情報を提供する初のデータセットで文脈の影響をモデル化するのに役立つ...

2021.09.29

データセット

１．WIT：ウィキペディアベースの画像-テキストデータセット(1/2)まとめ・テキストにも視覚にも対応できるマルチモーダルなモデルは豊富なデータを必要とする・既存のデータセットは質と量の両立が出来ておらず英語以外の言語への対応も不足・...

2021.09.28

データセット

１．CoAtNets：畳み込みと自己注意の利点を備えたハイブリッドモデル(2/2)まとめ・CNNよりTransformerモデルの方が大規模データセットに対応する能力が高い・CoAtNetsは畳み込みと自己注意を組み合わせたハイブリッド...

2021.09.27

モデル

１．CoAtNets：畳み込みと自己注意の利点を備えたハイブリッドモデル(1/2)まとめ・モデルとデータサイズが大きくなるにつれてトレーニング効率が重要な焦点になりつつある・ニューラルアーキテクチャ探索を活用して画像認識用のモデルを2種...

2021.09.26

モデル

１．評価が難しい作業を実行するAIを人間が評価しやすくする工夫まとめ・AIが意図しなかった動作をしてしまう事は合致問題(alignment problem)として知られる・合致問題は「モデルの出力を人間が評価する事が困難または時間がかか...

2021.09.25

基礎理論

１．Deep-MARC：初めてみる物体をマスクする能力を向上する秘訣(2/2)まとめ・典型的なmask R-CNNの実装は完全教師有り設定ではパフォーマンスに影響を与えなかった・部分的教師有り設定ではcropping-to-ground...

2021.09.22

モデル

１．Deep-MARC：初めてみる物体をマスクする能力を向上する秘訣(1/2)まとめ・境界ボックス形式ではなくマスク形式のラベルを作成する際に性能が低下する要因を特定・一部のみがマスク形式ラベルを持つ部分的教師あり設定でも高パフォーマン...

2021.09.21

モデル

１．AI Choreographer：音楽に合わせたダンスを生成する人工知能(2/2)まとめ・FACTはMotion、Audio、Cross-Modalの3種のTransformerから構成される・full-attention mask...

2021.09.20

モデル

１．AI Choreographer：音楽に合わせたダンスを生成する人工知能(1/2)まとめ・機械学習でダンスを生成するには動きと音楽を考慮して連続モーションを生成する能力が必要・既存のAISTダンスデータセットに３D情報を付与してAI...

2021.09.19

モデル

１．発声に困難を抱える人の音声コミュニケーションを支援するモデル用のデータセットの開発(2/2)まとめ・全体的にパーソナライズ手法は全重症度レベルと条件にわたって大幅な改善をもたらした・個人向けに最適化されたASRモデルの単語誤り率は人...

2021.09.15

データセット公平性

１．発声に困難を抱える人の音声コミュニケーションを支援するモデル用のデータセットの開発(1/2)まとめ・自動音声認識(ASR)テクノロジーは発声に困難を持つ個人を支援する可能性を秘めている・ASRの精度向上は著しいが発声に困難を持つ個人...

2021.09.14

データセット公平性

１．教師あり学習を使って外れ値を発見する(3/3)まとめ・異常検出は必ずしも完全に異なるか否かではなく一部に欠陥があるか否かで定義される・回転予測と分布増強対照学習はテクスチャ異常検出では高い性能を発揮できない・テクスチャ異常検出用に...

2021.09.11

基礎理論