音声

入門/解説

フレシェ距離を使用したオーディオとビジュアルの品質測定(1/3)

1.フレシェ距離を使用したオーディオとビジュアルの品質測定(1/3)まとめ ・生成モデルが生成した画像や音声を定量的に評価する手法は従来は存在しなかった ・この課題を解決するフレシェオーディオ距離(FAD)とフレシェビデオ距離(FVD)の2...
入門/解説

M4:超多言語、大規模ニューラル機械翻訳(1/3)

1.M4:超多言語、大規模ニューラル機械翻訳(1/3)まとめ ・機械翻訳システムの品質は飛躍的に進歩しているが品質は学習用データの量に依存している ・学習用データが少ない言語では学習用データが多い言語ほど品質を向上できていない問題がある ・...
モデル

エンドツーエンドモデルによる多言語リアルタイム音声認識(2/2)

1.エンドツーエンドモデルによる多言語リアルタイム音声認識(2/2)まとめ ・多言語モデルはトレーニングセット内に頻繁に表れる言語の特徴表現からより多くの影響を受ける ・利用可能なデータが多い言語から多くの影響を受けてしまうので言語情報を入...
モデル

エンドツーエンドモデルによる多言語リアルタイム音声認識(1/2)

1.エンドツーエンドモデルによる多言語リアルタイム音声認識(1/2)まとめ ・音声データからニューラルネットワークが学習した「知識」の多くは他の言語に流用できる ・この洞察を元に利用可能な音声データが多い言語で学習した結果をマイナーな言語に...
入門/解説

FaceForensics:ディープフェイク検出研究用のベンチマーク

1.FaceForensics:ディープフェイク検出研究用のベンチマークまとめ ・ディープラーニングは数年前には実現不可能と思われていた技術を実現させた ・悪用の危険性が高い偽動画、すなわちディープフェイクも広まってしまった ・ディープフェ...
学会

Google at Interspeech 2019

1.Google at Interspeech 2019まとめ ・オーストリアで国際音声コミュニケーション協会の第20回年次会議(Interspeech 2019)が開催 ・GoogleはInterspeech 2019のゴールドスポンサー...
学習手法

VideoBERT:ビデオ内の画像と音声を組み合わせて学習(3/3)

1.VideoBERT:ビデオ内の画像と音声を組み合わせて学習(3/3)まとめ ・VideoBERTはベースラインとした完全教師付き学習のtop-5 accuracyに匹敵する精度を達成 ・VideoBERTはヴィジュアルトークン作成時に細...
モデル

VideoBERT:ビデオ内の画像と音声を組み合わせて学習(2/3)

1.VideoBERT:ビデオ内の画像と音声を組み合わせて学習(2/3)まとめ ・ビデオ内の画像とテキストを組み合わせたクロスモーダルな文章を元にVideoBERTを学習させた ・VideoBERTを、料理、ガーデニング、車両修理など、10...
学習手法

VideoBERT:ビデオ内の画像と音声を組み合わせて学習(1/3)

1.VideoBERT:ビデオ内の画像と音声を組み合わせて学習(1/3)まとめ ・機械学習で動画内でどのような活動が行われているのかを認識させるのは困難 ・従来手法では細かくラベル付けされた大量の動画が必要になるがこれは高価 ・動画内の音声...
その他の調査

長文を読みあげる合成音声の品質を評価する(2/2)

1.長文を読みあげる合成音声の品質を評価する(2/2)まとめ ・複数の文が含まれる長文を評価する事は人間の音声を評価対象にしても評価がぶれる ・長文を読みあげる合成音声の評価は簡単ではなく、人間の行動真理などが関係している可能性がある ・段...
入門/解説

長文を読みあげる合成音声の品質を評価する(1/2)

1.長文を読みあげる合成音声の品質を評価する(1/2)まとめ ・合成音声の品質評価は従来1文ごとに行われており、文脈の中で評価する統一基準は存在しない ・しかし評価対象の文を長い文章の一部として評価すると従来と来なる評価基準が採用されている...
その他

自然言語による対話を訓練するための2つの新しいデータセット

1.自然言語による対話を訓練するための2つの新しいデータセットまとめ ・デジタルアシスタントの対話能力向上に利用できるデータセットが公開 ・人間同士の対話に基づいているため現実世界の対話により近いデータ ・好みに関する対話のCCPEと特定タ...