人工知能/機械学習

アプリケーション

より少ないデータから表形式データを推論することを学習(2/2)

1.より少ないデータから表形式データを推論することを学習(2/2)まとめ ・パフォーマンスを向上させるために反事実条件と合成の2つの新しい事前トレーニングを導入 ・経験則を用いてデータの一部分のみを使って計算効率を最適化出来ないかを調査 ・...
アプリケーション

より少ないデータから表形式データを推論することを学習(1/2)

1.より少ないデータから表形式データを推論することを学習(1/2)まとめ ・自然言語推論は通常の文章を対象にした研究は多いが構造化データに適用する研究は少ない ・EMNLP 2020で表形式データ解析用にカスタマイズされた初の事前トレーニン...
インフラ

GCP上で大きなモデルを動かした際のGPUの性能比較

1.GCP上で大きなモデルを動かした際のGPUの性能比較まとめ ・Colabで動かせないモデルをGCP上で実行するとColabの凄みを改めて実感する事になる ・GPUはベンチマークではなく実際のタスクやモデルで動かさないと性能差はわからない...
基礎理論

RxR:多言語の案内指示に対応する能力を測るベンチマーク(2/2)

1.RxR:多言語の案内指示に対応する能力を測るベンチマーク(2/2)まとめ ・RxRには約1,000万語が含まれており既存のデータセットの約10倍の規模 ・RxRを使い現在の最良のモデルであっても人間の半分程度のスコアである事が判明 ・R...
基礎理論

RxR:多言語の案内指示に対応する能力を測るベンチマーク(1/2)

1.RxR:多言語の案内指示に対応する能力を測るベンチマーク(1/2)まとめ ・話し言葉や書き言葉を使った指示に応じて複雑な環境を案内できるAIの開発は大きな課題 ・視覚と言語のナビゲーション(VLN)と呼ばれるこの課題には、空間言語の高度...
インフラ

ETLの未来がELTではなくEL(T)である理由

1.ETLの未来がELTではなくEL(T)である理由まとめ ・ETLは柔軟性、視認性、及びデータ追加時にコストがかかる事が問題点である ・ELTは、データを取り込んだ後に変換するのでデータ要件が変更されても追加コストが不要 ・最終的にExt...
データセット

ToTTo:表から文を抽出する能力を測るためのデータセット(2/2)

1.ToTTo:表から文を抽出する能力を測るためのデータセット(2/2)まとめ ・最もパフォーマンスの高いモデルであっても約20%の確率で情報を幻覚化するように見える ・最先端のモデルでも幻覚、数値的推論、および稀なトピックに苦労している事...
データセット

ToTTo:表から文を抽出する能力を測るためのデータセット(1/2)

1.ToTTo:表から文を抽出する能力を測るためのデータセット(1/2)まとめ ・自然言語生成は元の文章に存在しない幻覚のような文章を生成してしまう事がまだある ・既存のデータセットでは幻覚の原因がデータノイズなのかモデルの欠点なのか特定が...
アプリケーション

Pr-VIPE:異なる視点から撮影した画像間で人間の姿勢の類似性を認識(2/2)

1.Pr-VIPE:異なる視点から撮影した画像間で人間の姿勢の類似性を認識(2/2)まとめ ・Pr-VIPEを使用して異なった視点から撮影された動画から同じポーズを検索する事が可能 ・カメラパラメータを使用せずに異なる視点から同じポーズを取...
アプリケーション

Pr-VIPE:異なる視点から撮影した画像間で人間の姿勢の類似性を認識(1/2)

1.Pr-VIPE:異なる視点から撮影した画像間で人間の姿勢の類似性を認識(1/2)まとめ ・人間の姿勢を画像や動画などで2次元として撮影するとカメラの視点によって見え方が異なる ・二次元情報のみを使用して三次元ポーズの類似性を認識できると...
アプリケーション

Jukebox:歌声を含む生のオーディオを生成可能なニューラルネット(2/2)

1.Jukebox:歌声を含む生のオーディオを生成可能なニューラルネット(2/2)まとめ ・Jukeboxは局所的には一貫性のある音楽を作成できるが曲全体で見るとまだ構造把握が甘い ・ダウンサンプリングとアップサンプリングを行っているためノ...
アプリケーション

Jukebox:歌声を含む生のオーディオを生成可能なニューラルネット(1/2)

1.Jukebox:歌声を含む生のオーディオを生成可能なニューラルネット(1/2)まとめ ・音楽におけるスタイル転送が歌声を含む生の音声データで可能なOpen AIのJukeboxの紹介 ・CD品質の音楽は1,000万を超えるタイムステップ...