google ai

モデル

Vid2Seq:ビデオ内の各イベントを記述可能な事前学習済み視覚言語モデル(1/2)

1.Vid2Seq:ビデオ内の各イベントを記述可能な事前学習済み視覚言語モデル(1/2)まとめ ・数分レベルの長さのビデオの中のすべてのイベントを説明するタスクを「高密度ビデオキャプション」という ・標準的なビデオキャプションと比べて高度に...
モデル

PaLM-E:ロボットは邪魔をされても引き出しからポテチを取り出すくらいはできるようになっている(1/2)

1.PaLM-E:ロボットは邪魔をされても引き出しからポテチを取り出すくらいはできるようになっている(1/2)まとめ ・ロボットモデルの規模拡大は一定の成功を収めているが、テキストや画像に匹敵する規模のデータセットがないので遅れをとっている...
モデル

USM:100以上の言語に対応した最先端の音声AI(2/2)

1.USM:100以上の言語に対応した最先端の音声AI(2/2)まとめ ・事前学習で得た知識によりUSMは下流タスクからのわずかな量の教師ありデータで良好な品質を達成することができる ・YouTubeデータを使った検証では73言語の平均で3...
モデル

USM:100以上の言語に対応した最先端の音声AI(1/2)

1.USM:100以上の言語に対応した最先端の音声AI(1/2)まとめ ・昨年の11月、Googleは世界で最も話されている1,000の言語をサポートする機械学習モデルの構築を目標に掲げた ・ユニバーサルスピーチモデルはその実現に向けた重要...
AI関連その他

2022年のGoogleのAI研究の成果と今後の展望~研究コミュニティへの参加編~(2/2)まとめ

1.2022年のGoogleのAI研究の成果と今後の展望~研究コミュニティへの参加編~(2/2)まとめ ・Googleは研究コミュニティと協力的なエコシステムを構築するためにオープンソースでコードやデータセットを公開している ・2022年に...
量子コンピュータ

実用的な量子コンピュータの実現に必須の量子エラー訂正技術の最前線(2/2)

1.実用的な量子コンピュータの実現に必須の量子エラー訂正技術の最前線(2/2)まとめ ・QECが規模に応じて向上するようにするためナノ加工から最適化制御まであらゆる側面を改善した ・よりサイズの大きい距離5グリッドが距離3グリッドより信頼度...
量子コンピュータ

マイクロ波を増幅して量子コンピューターの限界を押し上げる(2/2)

1.マイクロ波を増幅して量子コンピューターの限界を押し上げる(2/2)まとめ ・量子ビット状態の測定を助ける新たに開発した増幅器は複雑さを比較的抑えて既存の設計と完全に互換性を持たせる事が出来た ・この増幅器では1つでより多くの量子ビットを...
量子コンピュータ

マイクロ波を増幅して量子コンピューターの限界を押し上げる(1/2)

1.マイクロ波を増幅して量子コンピューターの限界を押し上げる(1/2)まとめ ・Googleは量子コンピュータを構築しているが、良く話題になる超伝導プロセッサは全体の一部に過ぎない ・量子コンピュータを正しく動作させるためには、周辺ハードウ...
AI関連その他

2022年のGoogleのAI研究の成果と今後の展望~言語・視覚・生成モデル編~(5/5)

1.2022年のGoogleのAI研究の成果と今後の展望~言語・視覚・生成モデル編~(5/5)まとめ ・本稿ではGoogleの責任あるAIの原則を改めて解説し2022年のテーマを総括して振り返る ・個々のテーマは各事業担当者がそれぞれ別記事...
AI関連その他

2022年のGoogleのAI研究の成果と今後の展望~言語・視覚・生成モデル編~(4/5)

1.2022年のGoogleのAI研究の成果と今後の展望~言語・視覚・生成モデル編~(4/5)まとめ ・画像、映像、音声用の生成モデルの品質と能力は、2022年に本当に驚くべき、驚異的な進歩を見せた ・GoogleはImagen Video...
AI関連その他

2022年のGoogleのAI研究の成果と今後の展望~言語・視覚・生成モデル編~(3/5)

1.2022年のGoogleのAI研究の成果と今後の展望~言語・視覚・生成モデル編~(3/5)まとめ ・次世代のAIは特定のデータ形式しか扱えない従来のAIと異なり複数のデータ形式を扱えう事が可能 ・マルチモーダルモデルと呼ばれるこれらのA...
アプリケーション

speaker labels:誰の発言がわかるように音声データにラベルをつけるスマホアプリ(2/2)

1.speaker labels:誰の発言かわかるように音声データにラベルをつけるスマホアプリ(2/2)まとめ ・音声をembedding化した後、複数のクラスタリング手法で話者推定を実施する ・メイン処理に渡す前に予備的アルゴリズムで事前...