CVSS：大規模多言語音声間翻訳データセット(1/2)

１．CVSS：大規模多言語音声間翻訳データセット(1/2)まとめ

・ある言語の音声を別の言語の音声に自動翻訳する事を音声合成翻訳(S2ST)という
・S2STは直接翻訳するタイプと複数システムを連結して実現する２種が存在する
・直接型のS2STの研究を促進するため大規模多言語データセットCVSSを開発

２．CVCCとは？

以下、ai.googleblog.comより「Introducing CVSS: A Massively Multilingual Speech-to-Speech Translation Corpus」の意訳です。元記事の投稿は2022年4月1日、Ye JiaさんとMichelle Tadmorさんによる投稿です。

アイキャッチ画像のクレジットはPhoto by Emmanuel Ikwuegbu on Unsplash

ある言語の音声を別の言語の音声に自動翻訳することは、音声合成翻訳(S2ST:Speech-To-Speech Translation)と呼ばれ、異なる言語を話す人々の間のコミュニケーションの壁を取り除くために重要です。

従来、S2STの自動翻訳システムは、自動音声認識(ASR:Automatic Speech Recognition)、テキスト間機械翻訳(MT:Machine Translation)、テキスト音声合成(TTS:Text-To-Speech)をサブシステムとして段階的に連結(カスケード)する事で構築されており、システム全体がテキスト中心となっています。

最近では、連結型ではない直接型(エンドツーエンド)の直接S2ST(例:Translatotron)や学習された音声の離散表現に基づく連結型のS2ST(例:Tjandraらの研究)など、中間テキスト表現に依存しないS2STに関する研究が登場しています。

このような直接型S2STシステムの初期バージョンは、連結型S2STモデルと比較して翻訳品質が低かったのですが、翻訳の待ち時間や複合エラーを減らし、音声、感情、調子などのパラ言語情報および非言語情報を元の音声からよりよく保持できる可能性があるため、人気が出てきています。

しかし、このようなモデルは通常、ペアとなるS2STデータを含むデータセットで学習する必要がありますが、そのような言語情報資料(コーパス)の公開は非常に限られています。

このような新世代のS2STの研究を促進するために、21の言語から英語への文レベルの音声合成ペアを含むCommon Voice-based Speech-to-Speech translation corpus(CVSS)を紹介します。

CVSSは、既存の公開コーパスとは異なり、余分な処理を行うことなく、直接S2STモデルの学習に利用することができます。

論文「CVSS Corpus and Massively Multilingual Speech-to-Speech Translation」では、データセットの設計と開発について説明し、ベースラインの直接S2STモデルと連結S2STモデルの学習を通して、このコーパスの有効性を実証し、連結S2STモデルに近い直接S2STモデルの性能を示します。

CVSSの構築

CVSSはCoVoST 2から直接派生したものspeech-to-text(ST)翻訳コーパスです。CoVoST 2はさらにCommon Voice音声コーパスから派生したものです。

Common VoiceはASR用に設計された大規模な多言語音声コーパスで、Wikipediaや他のテキストコーパスからテキストコンテンツを読み上げる投稿者によって音声が収集されています。CoVoST 2はさらに、21言語から英語、英語から15言語への専門的なテキスト翻訳を提供しています。CVSSはこのような努力の上に、21言語から英語への文レベルの音声合成並列翻訳ペアを提供しています(下表参照)。

異なる焦点の研究を促進するために、CVSSでは2つのバージョンの英語翻訳音声が提供されています。どちらも最先端のTTSシステムを用いて合成されており、それぞれのバージョンは他の公開S2STコーパスには存在しない独自の価値を提供します。

CVSS-C
翻訳音声はすべて正規の話者の音声を使用しています。合成音声でありながら、非常に自然で清潔感があり、話し方に一貫性があります。これらの特性により、ターゲット音声のモデリングが容易になり、学習されたモデルは、話者の声の正確な再現よりも音声品質が重要な、一般ユーザー向けのアプリケーションに適した高品質の翻訳音声を生成することができます。

CVSS-T
翻訳先の音声は、対応する翻訳元音声と同じ声です。S2STの各ペアは、言語が異なるにもかかわらず、双方の音声が類似しています。このため、映画の吹き替えなど、正確な音声の保存が望まれるモデルの構築に適したデータセットです。

S2STの2つのデータセットには、原文の音声と合わせて、それぞれ1,872時間、1,937時間の音声が含まれています。

Source Language	Code	Source speech(X)	CVSS-C target speech(En)	CVSS-T target speech(En)
French	fr	309.3	200.3	222.3
German	de	226.5	137	151.2
Catalan	ca	174.8	112.1	120.9
Spanish	es	157.6	94.3	100.2
Italian	it	73.9	46.5	49.2
Persian	fa	58.8	29.9	34.5
Russian	ru	38.7	26.9	27.4
Chinese	zh	26.5	20.5	22.1
Portuguese	pt	20	10.4	11.8
Dutch	nl	11.2	7.3	7.7
Estonian	et	9	7.3	7.1
Mongolian	mn	8.4	5.1	5.7
Turkish	tr	7.9	5.4	5.7
Arabic	ar	5.8	2.7	3.1
Latvian	lv	4.9	2.6	3.1
Swedish	sv	4.3	2.3	2.8
Welsh	cy	3.6	1.9	2
Tamil	ta	3.1	1.7	2
Indonesian	id	3	1.6	1.7
Japanese	ja	3	1.7	1.8
Slovenian	sl	2.9	1.6	1.9
Total		1153.2	719.1	784.2