video

入門/解説

Google Research:2019年の振り返りと2020年以降に向けて(6/8)

1.Google Research:2019年の振り返りと2020年以降に向けて(6/8)まとめ ・従来は分割して段階的に行った作業を大規模ニューラルネットワークで一気にやる事が主流になりつつある ・これらの研究結果はBERTの検索エンジン...
入門/解説

Google Research:2019年の振り返りと2020年以降に向けて(5/8)

1.Google Research:2019年の振り返りと2020年以降に向けて(5/8)まとめ ・2019年はニューラルネットワークのトレーニングにどのような力学が働くのか特性を理解を目指した ・AutoMLの研究も継続し、既存モデルの改...
モデル

BERTのGoogle検索エンジンへの実践投入

1.BERTのGoogle検索エンジンへの実践投入まとめ ・文脈を理解するAIとして昨年秋に話題になったBERTがGoogle検索に実践投入 ・従来より検索語の意図を理解する能力が高まり英語検索の10%程度が改善された ・改良された学習結果...
入門/解説

フレシェ距離を使用したオーディオとビジュアルの品質測定(3/3)

1.フレシェ距離を使用したオーディオとビジュアルの品質測定(3/3)まとめ ・FADとFVDによる評価が人間による評価を厳密に相関する事は実際のデータを使った検証された ・同じ音声を異なった2つの手段で歪ませて、どちらがよりすぐ実音声に近い...
入門/解説

フレシェ距離を使用したオーディオとビジュアルの品質測定(2/3)

1.フレシェ距離を使用したオーディオとビジュアルの品質測定(2/3)まとめ ・GANの品質を測定する手法としてFID、フレシェ インセプション 距離がある ・FIDの原則に基づいてフレシェビデオ距離(FVD)とフレシェオーディオ距離(FAD...
入門/解説

フレシェ距離を使用したオーディオとビジュアルの品質測定(1/3)

1.フレシェ距離を使用したオーディオとビジュアルの品質測定(1/3)まとめ ・生成モデルが生成した画像や音声を定量的に評価する手法は従来は存在しなかった ・この課題を解決するフレシェオーディオ距離(FAD)とフレシェビデオ距離(FVD)の2...
モデル

動画用ニューラルネットワークを自動で探索する試み(3/3)

1.動画用ニューラルネットワークを自動で探索する試み(3/3)まとめ ・従来モデルより大幅に早くビデオ認識が可能なTiny Video Networksも自動探索する事ができた ・アーキテクチャの自動進化中に実行時間を考慮し計算量を削減する...
モデル

動画用ニューラルネットワークを自動で探索する試み(2/3)

1.動画用ニューラルネットワークを自動で探索する試み(2/3)まとめ ・AssembleNetでは、様々なサブネットワークを融合する新しい方法を検討した ・目的は、ビデオの外観と動きの視覚的な手がかりをまとめて、より優れた特徴表現を学習する...
モデル

動画用ニューラルネットワークを自動で探索する試み(1/3)

1.動画用ニューラルネットワークを自動で探索する試み(1/3)まとめ ・現在動画用のモデルは通常既存の画像用モデルなどを元に手動で拡張設計されている ・動画用モデルは時空間情報を扱うためAutoMLのような自動化アプローチが困難 ・この課題...
学習手法

VideoBERT:ビデオ内の画像と音声を組み合わせて学習(3/3)

1.VideoBERT:ビデオ内の画像と音声を組み合わせて学習(3/3)まとめ ・VideoBERTはベースラインとした完全教師付き学習のtop-5 accuracyに匹敵する精度を達成 ・VideoBERTはヴィジュアルトークン作成時に細...
モデル

VideoBERT:ビデオ内の画像と音声を組み合わせて学習(2/3)

1.VideoBERT:ビデオ内の画像と音声を組み合わせて学習(2/3)まとめ ・ビデオ内の画像とテキストを組み合わせたクロスモーダルな文章を元にVideoBERTを学習させた ・VideoBERTを、料理、ガーデニング、車両修理など、10...
学習手法

VideoBERT:ビデオ内の画像と音声を組み合わせて学習(1/3)

1.VideoBERT:ビデオ内の画像と音声を組み合わせて学習(1/3)まとめ ・機械学習で動画内でどのような活動が行われているのかを認識させるのは困難 ・従来手法では細かくラベル付けされた大量の動画が必要になるがこれは高価 ・動画内の音声...