入門/解説

データサイエンティスト向けPython仮想環境ガイド

1.データサイエンティスト向けPython仮想環境ガイドまとめ・機械学習モデルを開発する際は他の人が作ったライブラリ等を利用させて貰う事が多い・他の人が作ったライブラリは特定のVersionのpythonやライブラリを必要とする場合がある・...
アプリケーション

Google 翻訳アプリのライブ音声書き起こし翻訳の訳を安定化(2/2)

1.Google 翻訳アプリのライブ音声書き起こし翻訳の訳を安定化(2/2)まとめ・ストリーミング翻訳モデルはライブ翻訳専用にモデルを再構築する手間がかかる・マスキングとバイアスを組み合わせた独自の再翻訳アプローチで全体的に性能を向上・表示...
アプリケーション

Google 翻訳アプリのライブ音声書き起こし翻訳の訳を安定化(1/2)

1.Google 翻訳アプリのライブ音声書き起こし翻訳の訳を安定化(1/2)まとめ・Google翻訳アプリの文字起こし機能を使うリアルタイムに翻訳済み文書に文字起こし可能・しかし、このアプリの初期バージョンは翻訳文が後から改訂される事が多く...
アプリケーション

Googleマップでインドの言葉の翻字を改善(2/2)

1.Googleマップでインドの言葉の翻字を改善(2/2)まとめ・複数モデルのアンサンブルを採用する事で個々のモデルより大幅に高品質の翻字を実現・従来のPOI名に対して今回のアンサンブル翻字手法で品質と対応範囲が大幅に改善された・今後は他の...
アプリケーション

Googleマップでインドの言葉の翻字を改善(1/2)

1.Googleマップでインドの言葉の翻字を改善(1/2)まとめ・日本だと「Google 渋谷」でも「グーグル 渋谷」でも渋谷のGoogle入居ビルを捜せる・同じ単語を別の文字で書く事を翻字(transliteration)と言い多言語では...
基礎理論

RxR:多言語の案内指示に対応する能力を測るベンチマーク(2/2)

1.RxR:多言語の案内指示に対応する能力を測るベンチマーク(2/2)まとめ・RxRには約1,000万語が含まれており既存のデータセットの約10倍の規模・RxRを使い現在の最良のモデルであっても人間の半分程度のスコアである事が判明・RxRを...
基礎理論

RxR:多言語の案内指示に対応する能力を測るベンチマーク(1/2)

1.RxR:多言語の案内指示に対応する能力を測るベンチマーク(1/2)まとめ・話し言葉や書き言葉を使った指示に応じて複雑な環境を案内できるAIの開発は大きな課題・視覚と言語のナビゲーション(VLN)と呼ばれるこの課題には、空間言語の高度な理...
インフラ

ETLの未来がELTではなくEL(T)である理由

1.ETLの未来がELTではなくEL(T)である理由まとめ・ETLは柔軟性、視認性、及びデータ追加時にコストがかかる事が問題点である・ELTは、データを取り込んだ後に変換するのでデータ要件が変更されても追加コストが不要・最終的にExtrac...
データセット

ToTTo:表から文を抽出する能力を測るためのデータセット(2/2)

1.ToTTo:表から文を抽出する能力を測るためのデータセット(2/2)まとめ・最もパフォーマンスの高いモデルであっても約20%の確率で情報を幻覚化するように見える・最先端のモデルでも幻覚、数値的推論、および稀なトピックに苦労している事がわ...
データセット

ToTTo:表から文を抽出する能力を測るためのデータセット(1/2)

1.ToTTo:表から文を抽出する能力を測るためのデータセット(1/2)まとめ・自然言語生成は元の文章に存在しない幻覚のような文章を生成してしまう事がまだある・既存のデータセットでは幻覚の原因がデータノイズなのかモデルの欠点なのか特定が困難...
入門/解説

10億のパラメータを持つ人工知能は張り詰めたぁ~弓のぉ~震える弦よぉ~♪の続きを歌えるのか?

1.10億のパラメータを持つ人工知能は張り詰めたぁ~弓のぉ~震える弦よぉ~♪の続きを歌えるのか?まとめ・未完の文章や画像の続きを作風を合わせて完成させる事が出来る人工知能が発表されている・Jukeboxは同様に生の音楽のイントロの続きを指定...
アプリケーション

Pr-VIPE:異なる視点から撮影した画像間で人間の姿勢の類似性を認識(2/2)

1.Pr-VIPE:異なる視点から撮影した画像間で人間の姿勢の類似性を認識(2/2)まとめ・Pr-VIPEを使用して異なった視点から撮影された動画から同じポーズを検索する事が可能・カメラパラメータを使用せずに異なる視点から同じポーズを取得で...