dahara1

アプリケーション

Googleマップでインドの言葉の翻字を改善(2/2)

1.Googleマップでインドの言葉の翻字を改善(2/2)まとめ ・複数モデルのアンサンブルを採用する事で個々のモデルより大幅に高品質の翻字を実現 ・従来のPOI名に対して今回のアンサンブル翻字手法で品質と対応範囲が大幅に改善された ・今後...
アプリケーション

Googleマップでインドの言葉の翻字を改善(1/2)

1.Googleマップでインドの言葉の翻字を改善(1/2)まとめ ・日本だと「Google 渋谷」でも「グーグル 渋谷」でも渋谷のGoogle入居ビルを捜せる ・同じ単語を別の文字で書く事を翻字(transliteration)と言い多言語...
基礎理論

RxR:多言語の案内指示に対応する能力を測るベンチマーク(2/2)

1.RxR:多言語の案内指示に対応する能力を測るベンチマーク(2/2)まとめ ・RxRには約1,000万語が含まれており既存のデータセットの約10倍の規模 ・RxRを使い現在の最良のモデルであっても人間の半分程度のスコアである事が判明 ・R...
基礎理論

RxR:多言語の案内指示に対応する能力を測るベンチマーク(1/2)

1.RxR:多言語の案内指示に対応する能力を測るベンチマーク(1/2)まとめ ・話し言葉や書き言葉を使った指示に応じて複雑な環境を案内できるAIの開発は大きな課題 ・視覚と言語のナビゲーション(VLN)と呼ばれるこの課題には、空間言語の高度...
インフラ

ETLの未来がELTではなくEL(T)である理由

1.ETLの未来がELTではなくEL(T)である理由まとめ ・ETLは柔軟性、視認性、及びデータ追加時にコストがかかる事が問題点である ・ELTは、データを取り込んだ後に変換するのでデータ要件が変更されても追加コストが不要 ・最終的にExt...
データセット

ToTTo:表から文を抽出する能力を測るためのデータセット(2/2)

1.ToTTo:表から文を抽出する能力を測るためのデータセット(2/2)まとめ ・最もパフォーマンスの高いモデルであっても約20%の確率で情報を幻覚化するように見える ・最先端のモデルでも幻覚、数値的推論、および稀なトピックに苦労している事...
データセット

ToTTo:表から文を抽出する能力を測るためのデータセット(1/2)

1.ToTTo:表から文を抽出する能力を測るためのデータセット(1/2)まとめ ・自然言語生成は元の文章に存在しない幻覚のような文章を生成してしまう事がまだある ・既存のデータセットでは幻覚の原因がデータノイズなのかモデルの欠点なのか特定が...
入門/解説

10億のパラメータを持つ人工知能は張り詰めたぁ~弓のぉ~震える弦よぉ~♪の続きを歌えるのか?

1.10億のパラメータを持つ人工知能は張り詰めたぁ~弓のぉ~震える弦よぉ~♪の続きを歌えるのか?まとめ ・未完の文章や画像の続きを作風を合わせて完成させる事が出来る人工知能が発表されている ・Jukeboxは同様に生の音楽のイントロの続きを...
アプリケーション

Pr-VIPE:異なる視点から撮影した画像間で人間の姿勢の類似性を認識(2/2)

1.Pr-VIPE:異なる視点から撮影した画像間で人間の姿勢の類似性を認識(2/2)まとめ ・Pr-VIPEを使用して異なった視点から撮影された動画から同じポーズを検索する事が可能 ・カメラパラメータを使用せずに異なる視点から同じポーズを取...
アプリケーション

Pr-VIPE:異なる視点から撮影した画像間で人間の姿勢の類似性を認識(1/2)

1.Pr-VIPE:異なる視点から撮影した画像間で人間の姿勢の類似性を認識(1/2)まとめ ・人間の姿勢を画像や動画などで2次元として撮影するとカメラの視点によって見え方が異なる ・二次元情報のみを使用して三次元ポーズの類似性を認識できると...
アプリケーション

Jukebox:歌声を含む生のオーディオを生成可能なニューラルネット(2/2)

1.Jukebox:歌声を含む生のオーディオを生成可能なニューラルネット(2/2)まとめ ・Jukeboxは局所的には一貫性のある音楽を作成できるが曲全体で見るとまだ構造把握が甘い ・ダウンサンプリングとアップサンプリングを行っているためノ...
アプリケーション

Jukebox:歌声を含む生のオーディオを生成可能なニューラルネット(1/2)

1.Jukebox:歌声を含む生のオーディオを生成可能なニューラルネット(1/2)まとめ ・音楽におけるスタイル転送が歌声を含む生の音声データで可能なOpen AIのJukeboxの紹介 ・CD品質の音楽は1,000万を超えるタイムステップ...