machine translation

FRMT:複数地域で使われる共通言語の微妙な差異を扱う能力を測る機械翻訳用ベンチマーク(2/2)

１．FRMT:複数地域で使われる共通言語の微妙な差異を扱う能力を測る機械翻訳用ベンチマーク(2/2)まとめ・各地域の専門家である注釈付け作業者が、MQMフレームワークを用いて、翻訳の誤りを分類した所、地域間の言語差異が補足できていた・人間の...

2023.03.08

データセット基礎理論

１．FRMT:複数地域で使われる共通言語の微妙な差異を扱う能力を測る機械翻訳用ベンチマーク(1/2)まとめ・ブラジルとポルトガルではポルトガル語が話されているように多くの言語には、地域によって様々なバリエーションがある・しかし、現在の機械翻...

2023.03.07

データセット基礎理論

１．学習用データが非常に少ない言語で機械翻訳を実現した手法(2/2)まとめ・単一巨大モデルを高リソース言語の翻訳タスクと低リソース言語のMASSタスクで訓練した・入力が同じ言語で不明瞭な文章か、まったく別の言語かはモデルからすれば大きな差は...

2022.05.25

学習手法

１．学習用データが非常に少ない言語で機械翻訳を実現した手法(1/2)まとめ・機械翻訳サービスは大多数の人が話す言語をカバーしているが数としては合計100言語程度・100言語は世界で話されている言語の1%強に過ぎず地域もヨーロッパ系に偏ってい...

2022.05.24

学習手法

１．MURAL:ヒンディー語で野菜を入れない素の麺が入った丼を検索されても対応画像を探せる人工知能(1/2)まとめ・概念の多くは、ある言語から別の言語への直接的に一対一に翻訳する事ができない・連想するものが異なるためだが概念のイメージを見せ...

2021.12.18

モデル

１．GCE:Pixel6の文字入力時の文法エラー修正モデル(2/2)まとめ・大規模なクラウドベースのモデルを作りそこからオンデバイス用の学習データを作成・クラウドベースのモデルの学習用データをそのまま使うより良いモデルが出来た・このモデルを...

2021.11.12

アプリケーションモデル

１．Google 翻訳アプリのライブ音声書き起こし翻訳の訳を安定化(1/2)まとめ・Google翻訳アプリの文字起こし機能を使うリアルタイムに翻訳済み文書に文字起こし可能・しかし、このアプリの初期バージョンは翻訳文が後から改訂される事が多く...

2021.02.03

アプリケーション

１．Google Research：2020年の振り返りと2021年以降に向けて(2/5)まとめ・機械学習の応用は脳の構造解析から有望な分子化合物の探索、チップセットの設計など多岐に・責任あるAIは解釈可能性の向上やバイアスの削減、安全性の...

2021.01.14

AI関連その他

１．Google Research：2019年の振り返りと2020年以降に向けて(6/8)まとめ・従来は分割して段階的に行った作業を大規模ニューラルネットワークで一気にやる事が主流になりつつある・これらの研究結果はBERTの検索エンジンへの...

2020.01.18

入門／解説

１．M4:超多言語、大規模ニューラル機械翻訳(2/3)まとめ・使用可能なすべてのデータを使用してトレーニングすると低リソース言語の翻訳品質が劇的に向上・超多言語モデルは一般化に効果的であり多言語全体の特徴表現の類似性を捕捉できている可能性が...

2019.10.16

入門／解説

１．M4:超多言語、大規模ニューラル機械翻訳(1/3)まとめ・機械翻訳システムの品質は飛躍的に進歩しているが品質は学習用データの量に依存している・学習用データが少ない言語では学習用データが多い言語ほど品質を向上できていない問題がある・ある言...

2019.10.15

入門／解説

１．多言語化対応したユニバーサルセンテンスエンコーダーで意味検索(1/2)まとめ・USEは文章を特徴表現ベクトルに変換する汎用の文章embedding化モデル・この度、多言語化対応と機能追加した３つのモジュールがリリース・多言語化された意味...

2019.07.16

入門／解説