dahara1

モデル

Translatotron 2:音声間直接翻訳アプローチの品質を更に改良(2/2)

1.Translatotron 2:音声間直接翻訳アプローチの品質を更に改良(2/2)まとめ・翻訳前後で話者の声を保持するために同じ話者の声を使用してS2STモデルをトレーニングする・多数のバイリンガルに協力して貰うのは難しいのでPnG N...
モデル

Translatotron 2:音声間直接翻訳アプローチの品質を更に改良(1/2)

1.Translatotron 2:音声間直接翻訳アプローチの品質を更に改良(1/2)まとめ・音声間翻訳システムは通常、音声認識や機械翻訳、音声合成を順番に適用して実現・2019年には2言語間で翻訳元音声を翻訳先音声に直接翻訳できるTran...
モデル

Pathdreamer:馴染のない建物内で何処に何がありそうか予測するAI(2/2)

1.Pathdreamer:馴染のない建物内で何処に何がありそうか予測するAI(2/2)まとめ・Pathdreamerはベースラインと比較して成功率を10%高くする事ができる・現実世界を実際に移動するエージェントより成功率は低いが時間とリソ...
モデル

Pathdreamer:馴染のない建物内で何処に何がありそうか予測するAI(1/2)

1.Pathdreamer:馴染のない建物内で何処に何がありそうか予測するAI(1/2)まとめ・人はなじみのない建物内でも視覚的な手がかりを利用して効率的に移動できる・この機能をAIで実現するためには「視覚的な世界モデル」の実装が必要となる...
データセット

WIT:ウィキペディアベースの画像-テキストデータセット(2/2)

1.WIT:ウィキペディアベースの画像-テキストデータセット(2/2)まとめ・WITは108言語のデータを備えた、初の大規模多言語マルチモーダルデータセット・WITは文脈情報を提供する初のデータセットで文脈の影響をモデル化するのに役立つ・W...
データセット

WIT:ウィキペディアベースの画像-テキストデータセット(1/2)

1.WIT:ウィキペディアベースの画像-テキストデータセット(1/2)まとめ・テキストにも視覚にも対応できるマルチモーダルなモデルは豊富なデータを必要とする・既存のデータセットは質と量の両立が出来ておらず英語以外の言語への対応も不足・WIT...
モデル

CoAtNets:畳み込みと自己注意の利点を備えたハイブリッドモデル(2/2)

1.CoAtNets:畳み込みと自己注意の利点を備えたハイブリッドモデル(2/2)まとめ・CNNよりTransformerモデルの方が大規模データセットに対応する能力が高い・CoAtNetsは畳み込みと自己注意を組み合わせたハイブリッドモデ...
モデル

CoAtNets:畳み込みと自己注意の利点を備えたハイブリッドモデル(1/2)

1.CoAtNets:畳み込みと自己注意の利点を備えたハイブリッドモデル(1/2)まとめ・モデルとデータサイズが大きくなるにつれてトレーニング効率が重要な焦点になりつつある・ニューラルアーキテクチャ探索を活用して画像認識用のモデルを2種を開...
基礎理論

評価が難しい作業を実行するAIを人間が評価しやすくする工夫

1.評価が難しい作業を実行するAIを人間が評価しやすくする工夫まとめ・AIが意図しなかった動作をしてしまう事は合致問題(alignment problem)として知られる・合致問題は「モデルの出力を人間が評価する事が困難または時間がかかる」...
入門/解説

Google Colabで日本語を含むPDFファイルを作成する方法

1.Google Colabで日本語を含むPDFファイルを作成する方法まとめ・Google Colabで日本語を含むPDFを作成するためのサンプルコードの紹介・PDFはFPDF for Pythonというパッケージを使えば簡単に作成する事が...
入門/解説

Google Colabのmatplotlibでグラフ内に日本語を使う方法

1.Google Colabのmatplotlibでグラフ内に日本語を使う方法まとめ・Google Colabのmatplotのグラフで日本語を表示させるためのサンプルコードの紹介・matplotはフォントのキャッシュファイルを暗黙のうちに...
モデル

Deep-MARC:初めてみる物体をマスクする能力を向上する秘訣(2/2)

1.Deep-MARC:初めてみる物体をマスクする能力を向上する秘訣(2/2)まとめ・典型的なmask R-CNNの実装は完全教師有り設定ではパフォーマンスに影響を与えなかった・部分的教師有り設定ではcropping-to-ground手法...