CVSS：大規模多言語音声間翻訳データセット(2/2)

１．CVSS：大規模多言語音声間翻訳データセット(2/2)まとめ

・CVSSは翻訳音声の他に、翻訳音声の発音に合わせた正規化された翻訳文も提供
・CVSSはCreative Commons Attribution 4.0 Internationalライセンスで公開されている
・比較対象モデルとして使用できる多言語直接型S2STモデルと連結型S2STモデルも公開

２．CVSS-CとCVSS-T

以下、ai.googleblog.comより「Introducing CVSS: A Massively Multilingual Speech-to-Speech Translation Corpus」の意訳です。元記事の投稿は2022年4月1日、Ye JiaさんとMichelle Tadmorさんによる投稿です。

アイキャッチ画像のクレジットはPhoto by Emmanuel Ikwuegbu on Unsplash

CVSSは翻訳音声の他に、翻訳音声の発音に合わせた正規化された翻訳文も提供しており(数字、通貨、頭字語など、下記のデータサンプルを参照、例えば「100%」を「one hundred percent」、「King George II」を「king george the second」と正規化しています)、モデルの学習と評価の標準化の両方に役立てることができます。

CVSSはCreative Commons Attribution 4.0 International(CC BY 4.0)のライセンスで公開されており、オンラインで自由にダウンロードすることができます。

音声データサンプル

例 1

ソース音声（フランス語）
翻訳元（仏）Le genre musical de la chanson est entièrement le disco.

CVSS-C翻訳音声(英語)

CVSS-T翻訳音声(英語)

翻訳文(英語)
この曲の音楽のジャンルは100％ディスコです。(100% Disco)

正規化された翻訳文(英語)
この曲の音楽のジャンルは100％ディスコです。(hundred percent disco)

例２

翻訳元音声(中国語)
原文転記(中国語)弗雷德里克王子，英国王室成员，为乔治二世之孙，乔治三世之幼弟。

CVSS-Cの翻訳音声(英語)

CVSS-T翻訳音声(英語)

翻訳テキスト(英語)
英国王室メンバー、フレデリック王子、ジョージ2世の孫、ジョージ3世の弟
(Prince Frederick, member of British Royal Family, Grandson of King George II, brother of King George III.)

正規化された翻訳テキスト(英語)
フレデリック王子イギリス王室メンバージョージ王2世の孫ジョージ王3世の弟
(prince frederick member of british royal family grandson of king george the second brother of king george the third)

ベースライン・モデル

CVSSの各バージョンにおいて、ベースラインの連結型S2STモデルとベースラインの直接型S2STモデルを学習させ、その性能を比較しました。これらのベースラインは今後の研究での比較に利用することができます。

連結型S2ST(Cascade S2ST)：強力な連結型S2STベースラインを構築するため、CoVoST 2上でSTモデルを訓練しました。このモデルは、追加データを使用せずにコーパス上で訓練した場合、21言語ペアすべて(論文に詳細)において平均BLEU +5.8 で従来の技術水準より優れた性能を発揮します。このSTモデルは、CVSSの構築に用いたのと同じTTSモデルと接続し、非常に強力な連結型S2STベースライン(ST→TTS)を構成しています。

直接型S2ST(Direct S2ST): TranslatotronとTranslatotron 2を用いて、2つのベースライン直接型S2STモデルを構築しました。CVSSでゼロから学習した場合、Translatotron 2の翻訳品質(8.7 BLEU)は、強力な連結型S2STベースライン(10.6 BLEU)に近づいています。さらに、両者が事前学習を用いた場合、その差はASR転写翻訳でわずか0.7BLEUに減少します。これらの結果は、S2STモデルを直接学習するためにCVSSを用いることの有効性を証明するものです。

CVSS-Cに基づいて構築されたベースラインである直接型モデルと連結型S2STモデルの翻訳品質を、音声翻訳からのASR転写におけるBLEUによって測定。事前学習はCoVoST 2で行い、他のデータセットは使用していません。

まとめ

私達は多言語→英語のS2STデータセットであるCVSS-CとCVSS-Tをリリースしました。

それぞれ21の原言語をカバーする約1.9千時間の文レベルのS2ST並列ペアを持ちます。CVSS-Cの翻訳音声は標準話者の音声で、CVSS-Tの翻訳音声は原文の音声を移し替えたものです。これらのデータセットは、他の公開S2STコーパスにはないユニークな価値を提供します。

私達は両データセットに対してベースラインとなる多言語直接型S2STモデルと連結型S2STモデルを構築したので、今後の研究で比較対象モデルとして利用することが可能です。連結型S2STのベースラインを構築するために、CoVoST 2上でSTモデルを学習しさせました。このモデルは、追加データなしにコーパス上で学習した場合、平均BLEU +5.8で従来の技術水準より優れています。しかし、S2STモデルの性能は、ゼロから学習した場合、比較対象とした強力な連結型モデルに迫る性能となり、事前学習を利用した場合、ASR書き言葉翻訳でわずか0.7BLEUの差となりました。本研究が直接型S2STの研究を加速させる一助となれば幸いです。

謝辞

Common Voice, CoVoST, CoVoST 2, Librispeech, LibriTTSコーパスの作成者、Common Voice, LibriVoxプロジェクトのボランティア、主催者の貢献と録音収集に感謝します。

CVSSコーパスおよび論文への直接の貢献者は、Ye Jia, Michelle Tadmor Ramanovich, Quan Wang, Heiga Zenです。また、Ankur Bapna, Yiling Huang, Jason Pelecanos, Colin Cherry, Alexis Conneau, Yonghui Wu, Hadar Shemtov, そしてFrançoise Beaufaysとの有益な議論と支援に感謝します。