multilingual

データセット

WIT:ウィキペディアベースの画像-テキストデータセット(2/2)

1.WIT:ウィキペディアベースの画像-テキストデータセット(2/2)まとめ ・WITは108言語のデータを備えた、初の大規模多言語マルチモーダルデータセット ・WITは文脈情報を提供する初のデータセットで文脈の影響をモデル化するのに役立つ...
基礎理論

RxR:多言語の案内指示に対応する能力を測るベンチマーク(2/2)

1.RxR:多言語の案内指示に対応する能力を測るベンチマーク(2/2)まとめ ・RxRには約1,000万語が含まれており既存のデータセットの約10倍の規模 ・RxRを使い現在の最良のモデルであっても人間の半分程度のスコアである事が判明 ・R...
基礎理論

RxR:多言語の案内指示に対応する能力を測るベンチマーク(1/2)

1.RxR:多言語の案内指示に対応する能力を測るベンチマーク(1/2)まとめ ・話し言葉や書き言葉を使った指示に応じて複雑な環境を案内できるAIの開発は大きな課題 ・視覚と言語のナビゲーション(VLN)と呼ばれるこの課題には、空間言語の高度...
モデル

LaBSE:言語に依存しないBERT仕様のEmbedding(2/2)

1.LaBSE:言語に依存しないBERT仕様のEmbedding(2/2)まとめ ・Tatoebaに登録されている言語を使った検証では主要14言語では他の手法と大きな差はなかった ・全112言語を含めてテストを行った場合、従来手法に20%近...
基礎理論

LaBSE:言語に依存しないBERT仕様のEmbedding(1/2)

1.LaBSE:言語に依存しないBERT仕様のEmbedding(1/2)まとめ ・多言語アプローチは有用ではあるがパフォーマンスを維持しながら対応言語を増やすのは困難 ・LaBSEは109の言語を使って訓練したBERT仕様で多言語共通なe...
入門/解説

TyDi QA:多言語対応した質問回答ベンチマーク(2/2)

1.TyDi QA:多言語対応した質問回答ベンチマーク(2/2)まとめ ・自然なデータセットを構築するために答えをまだ知らない人に質問文を作ってもらった ・その結果、質問文と回答文に共通な単語が少なくなり、同じ意味が異なって表現される事例も...
入門/解説

TyDi QA:多言語対応した質問回答ベンチマーク(1/2)

1.TyDi QA:多言語対応した質問回答ベンチマーク(1/2)まとめ ・日本語を含む11種類の多様な言語を網羅する質問回答用のデータセットであるTyDi QAが公開 ・TyDi QAは共通点の少ない言語を集めたため多様な言語に多様な対応可...
入門/解説

Google Research:2019年の振り返りと2020年以降に向けて(6/8)

1.Google Research:2019年の振り返りと2020年以降に向けて(6/8)まとめ ・従来は分割して段階的に行った作業を大規模ニューラルネットワークで一気にやる事が主流になりつつある ・これらの研究結果はBERTの検索エンジン...
学習手法

M4:超多言語、大規模ニューラル機械翻訳(3/3)

1.M4:超多言語、大規模ニューラル機械翻訳(3/3)まとめ ・低リソース言語の数を増やすと高リソース言語の翻訳の品質が低下する現象が観察される ・これを敷設ために良い学習アルゴリズムやモデルパラメータ数を増やす試みを行った ・最終的に50...
入門/解説

M4:超多言語、大規模ニューラル機械翻訳(2/3)

1.M4:超多言語、大規模ニューラル機械翻訳(2/3)まとめ ・使用可能なすべてのデータを使用してトレーニングすると低リソース言語の翻訳品質が劇的に向上 ・超多言語モデルは一般化に効果的であり多言語全体の特徴表現の類似性を捕捉できている可能...
入門/解説

M4:超多言語、大規模ニューラル機械翻訳(1/3)

1.M4:超多言語、大規模ニューラル機械翻訳(1/3)まとめ ・機械翻訳システムの品質は飛躍的に進歩しているが品質は学習用データの量に依存している ・学習用データが少ない言語では学習用データが多い言語ほど品質を向上できていない問題がある ・...
入門/解説

PAWS:自然言語の言い換えの理解を促進する新しいデータセット(3/3)

1.PAWS:自然言語の言い換えの理解を促進する新しいデータセット(3/3)まとめ ・BERTなどの強力なモデルはPAWSでトレーニングすると大幅に性能が向上 ・BOWなどの文脈情報を学習できないモデルではPAWSを使っても性能向上せず ・...