音声

アプリケーション

VoiceFilter-Lite:オンデバイス音声認識の改善(1/2)

1.VoiceFilter-Lite:オンデバイスの音声認識の改善(1/2)まとめ ・2018年に自分の声を登録して音声認識機能をパーソナライズするVoiceFilterを発表 ・VoiceFilterは成功したがスマートフォンなどのデバイ...
アプリケーション

ビデオ会議時に手話で発言権を確保できるようにする(2/2)

1.ビデオ会議時に手話で発言権を確保できるようにする(2/2)まとめ ・手話検出モデル完成後、ビデオ会議アプリに手話による発言を検知させる必要があった ・手話検出モデルは手話を検出すると超音波を発声しアプリに疑似的な発音を検知させる ・通常...
アプリケーション

YouTubeストーリーで人の声だけ音量を上げる(2/2)

1.YouTubeストーリーで人の声だけ音量を上げる(2/2)まとめ ・Looking to Listenはノイズを完全分離していたがユーザは一部を残す事を好んでいた ・年齢、肌の色、言語、声の高低、話者の顔の視認性により偏りがないようにチ...
アプリケーション

YouTubeストーリーで人の声だけ音量を上げる(1/2)

1.YouTubeストーリーで人の声だけ音量を上げる(1/2)まとめ ・バックグラウンドノイズが大きいビデオでは被写体のスピーチが曖昧になり理解しにくい ・Looking to Listenは音声と口の動きなどの視覚信号を使い特定の人の音声...
その他

GoogleのリサーチサイエンティストColin Raffelへのインタビュー(1/2)

1.GoogleのリサーチサイエンティストColin Raffelへのインタビュー(1/2)まとめ ・音楽に関する研究から始めたため、ラベル付きデータを取得する事の困難さを味わった ・そのため、ラベル付きデータの必要性を軽減する研究に関して...
入門/解説

2020年7月19日時点の日本のCOVID-19 Community Mobility Reports

1.2020年7月19日時点の日本のCOVID-19 Community Mobility Reportsまとめ ・COVID-19 Community Mobility Reportsが7月19日(日)時点版として更新 ・今週の余談は世界...
学会

ICML 2020におけるGoogleの存在感

1.ICML 2020におけるGoogleの存在感まとめ ・7/12から7/18の間インターネット上のヴァーチャルイベントとしてICML 2020が開催 ・Google社員も多数参加し100を超える論文の発表やワークショップを開催 ・本サイ...
学習手法

Context R-CNN:過去に撮影された写真を参照して仕掛けカメラの物体検出能力を改善(2/2)

1.Context R-CNN:過去に撮影された写真を参照して仕掛けカメラの物体検出能力を改善(2/2)まとめ ・Context R-CNNはFaster R-CNNアーキテクチャの中にコンテキストメモリバンクを汲み込んで実現 ・コンテキス...
モデル

自己教師学習で音声特徴表現と個人専用モデルを改善(2/2)

1.自己教師学習で音声特徴表現と個人専用モデルを改善(2/2)まとめ ・同じ音声のembeddingは、別の音声のembeddingよりembedding空間内で近い場所に位置するはず ・これを利用しBERTと同様なデータ自体の構造にのみ依...
学習手法

自己教師学習で音声特徴表現と個人専用モデルを改善(1/2)

1.自己教師学習で音声特徴表現と個人専用モデルを改善(1/2)まとめ ・非セマンティックタスクとは、声の調子など、人間の音声の「意味以外の側面」に焦点を当てたタスク ・従来のベンチマークでは非セマンティックタスク用の特徴表現が有用か否かを比...
AI関連その他

機械学習を用いて賢い繊維を実現(2/3)

1.機械学習を用いて賢い繊維を実現(2/3)まとめ ・e繊維はシンプルなジェスチャーと操作に対して応答を行う事を設計ガイドラインを定めている ・12人の実験参加者から収集したジェスチャーを機械学習させ94%のジェスチャー認識精度を達成 ・一...
学習手法

WaveNetEQでGoogle Duoの通話品質を向上(2/2)

1.WaveNetEQでGoogle Duoの通話品質を向上(2/2)まとめ ・コンディショニングネットワークは抑揚を意識して自己回帰ネットワークをあるべき波形に修正できる ・WaveNetEQの学習時は実際のデータを次のステップの入力に使...