モデル

ALMA-Jaの日英・英日翻訳性能をGoogleやMetaの最新多言語機械翻訳モデルと比較する

１．ALMA-Jaの日英・英日翻訳性能をGoogleやMetaの最新多言語機械翻訳モデルと比較するまとめ・最近リリースされた超多言語翻訳モデルであるMADLAD 400、SeamlessM4T V2、Gemini proと自作の機械翻訳モ...

2023.12.21

アプリケーションモデル

１．日英・英日機械翻訳モデルALMA-7B-Ja-V2の公開まとめ・先日公開した日英・英日機械翻訳モデルALMA-7B-Jaの性能を更に向上したV2を公開・70億パラメーターモデルだがMETA社の540億パラメーターモデルに近い性能を達...

2023.11.06

モデル

１．日英・英日機械翻訳モデルALMA-7B-Jaの公開まとめ・使い勝手の良いサイズ感の機械翻訳用のモデルが意外に選択肢がないと感じる事がある・多言語翻訳用の無料の機械翻訳モデルはサイズが大きかったりドキュメント不足で使うのが難しい・A...

2023.10.09

モデル

１．商用利用可能なライセンスで公開されたMetaの大規模言語モデルLlama2の動かし方まとめ・一昨日に発表されたMetaのLlama2はかなり性能が向上したので、130億パラメーター版(13b)をColabとローカルPCで動かしてみた方...

2023.07.24

モデル入門／解説

１．Vid2Seq：ビデオ内の各イベントを記述可能な事前学習済み視覚言語モデル(2/2)まとめ・Vid2Seqアーキテクチャにはビデオフレーム用のエンコーダー音声入力用のエンコーダーが含まれる・Vid2Seqモデル幅広い領域をカバーする...

2023.04.22

モデル

１．Vid2Seq：ビデオ内の各イベントを記述可能な事前学習済み視覚言語モデル(1/2)まとめ・数分レベルの長さのビデオの中のすべてのイベントを説明するタスクを「高密度ビデオキャプション」という・標準的なビデオキャプションと比べて高度に...

2023.04.21

モデル

１．PaLM-E:ロボットは邪魔をされても引き出しからポテチを取り出すくらいはできるようになっている(2/2)まとめ・PaLM-Eはロボット操作タスクと視覚・言語タスクを共通の特徴表現で括ることで、汎化モデルを学習する新しいパラダイムを提...

2023.04.16

モデルロボット

１．PaLM-E:ロボットは邪魔をされても引き出しからポテチを取り出すくらいはできるようになっている(1/2)まとめ・ロボットモデルの規模拡大は一定の成功を収めているが、テキストや画像に匹敵する規模のデータセットがないので遅れをとっている...

2023.04.15

モデルロボット

１．FollowYourPose:画像生成モデルとポーズ動画と文章からキャラクターの動画を生成まとめ・FollowYourPoseは棒人間形式にした動画とプロンプトを与えるとプロンプトと動画に基づいたキャラクター動画を簡単に作れる新モデル...

2023.04.08

モデル

１．segment-anything:画像内の全ての物体を画素単位で切り出す事が出来るMetaの基盤モデルまとめ・画像内にある物体を自動で認識して、切り出せるようにセグメンテーションマスクを作ってくれるSegment-Anything M...

2023.04.07

アプリケーションモデル

１．USM:100以上の言語に対応した最先端の音声AI(2/2)まとめ・事前学習で得た知識によりUSMは下流タスクからのわずかな量の教師ありデータで良好な品質を達成することができる・YouTubeデータを使った検証では73言語の平均で3...

2023.04.06

モデル

１．USM:100以上の言語に対応した最先端の音声AI(1/2)まとめ・昨年の11月、Googleは世界で最も話されている1,000の言語をサポートする機械学習モデルの構築を目標に掲げた・ユニバーサルスピーチモデルはその実現に向けた重要...

2023.04.05

モデル