language modeling

Vid2Seq：ビデオ内の各イベントを記述可能な事前学習済み視覚言語モデル(2/2)

１．Vid2Seq：ビデオ内の各イベントを記述可能な事前学習済み視覚言語モデル(2/2)まとめ・Vid2Seqアーキテクチャにはビデオフレーム用のエンコーダー音声入力用のエンコーダーが含まれる・Vid2Seqモデル幅広い領域をカバーする...

2023.04.22

モデル

言語モデル用のプロンプトエンジニアリングの経験則と実例

１．言語モデル用のプロンプトエンジニアリングの経験則と実例まとめ・プロンプトの先頭に指示を入れ、##または"""で指示と文脈を区切る事で区切りを明確に伝える事ができる・否定形でやってはいけないことだけを言うのではなく、代わりに何をすれば...

2023.04.02

入門／解説

GPT-4は技術文章の翻訳にどこまで使えそうか？

１．GPT-4は技術文章の翻訳にどこまで使えそうか？・chatGPT(GPT-4指定)であっても、翻訳対象として与えた長文中の一部を全く翻訳しないで飛ばすという現象が割と頻繁にある・chatGPT(GPT-4指定)であっても、大半の知識...

2023.03.19

AI関連その他

2022年のGoogleのAI研究の成果と今後の展望～言語・視覚・生成モデル編～(4/5)

１．2022年のGoogleのAI研究の成果と今後の展望～言語・視覚・生成モデル編～(4/5)まとめ・画像、映像、音声用の生成モデルの品質と能力は、2022年に本当に驚くべき、驚異的な進歩を見せた・GoogleはImagen Video...

2023.01.24

AI関連その他

2022年のGoogleのAI研究の成果と今後の展望～言語・視覚・生成モデル編～(2/5)

１．2022年のGoogleのAI研究の成果と今後の展望～言語・視覚・生成モデル編～(2/5)まとめ・MaxViTはオリジナルのVision Transformerの計算量削減に成功し、より効率的に規模を拡大可能にした・Pix2Seqは...

2023.01.21

AI関連その他

CALM:簡単な語順には手間をかけないようにして人工知能による文章生成を高速化(2/2)

１．CALM:簡単な語順には手間をかけないようにして人工知能による文章生成を高速化(2/2)まとめ・予測を途中で切り上げる判断は局所的に行なうが、一貫性は全体で判断する・テキスト整合性とリスクの整合性を設定できるようにしてバランスを取る...

2022.12.27

モデル

CALM:簡単な語順には手間をかけないようにして人工知能による文章生成を高速化(1/2)

１．CALM:簡単な語順には手間をかけないようにして人工知能による文章生成を高速化(1/2)まとめ・文章生成タスクは直前の単語に基づいて行われるため並列化が困難である・幾つかの単語は他の単語より次の単語を予測することが簡単な事実に着目し...

2022.12.26

モデルAI

Flan-U-PaLM:わずかな追加計算で大規模言語モデルの性能を向上(2/2)

１．Flan-U-PaLM:わずかな追加計算で大規模言語モデルの性能を向上(2/2)まとめ・指示微調整とは指示形式で表現されたデータセットでLMを微調整する事・指示微調整は1800タスクで実施し場合でもわずかな計算量しか必要としない・...

2022.12.02

モデル

Flan-U-PaLM:わずかな追加計算で大規模言語モデルの性能を向上(1/2)

１．Flan-U-PaLM:わずかな追加計算で大規模言語モデルの性能を向上(1/2)まとめ・巨大言語モデルを学習させるためには膨大な計算資源を必要でハードルが高い・膨大な計算資源を使わずに既存モデルを大幅に改善する2つの手法を提案・U...

2022.12.01

モデル

人工知能はサイズを大きくすると今までできなかった事が突然できるようになる(1/2)

１．人工知能はサイズを大きくすると今までできなかった事が突然できるようになる(1/2)まとめ・大きな人工知能の性能は小さな人工知能の性能傾向を元に予測可能な事が多い・ある種のタスクは人工知能が特定のサイズを超えると突然性能が向上し始める...

2022.11.17

基礎理論

ReAct:わからなかったらググって、ググった情報を元にもう一度ググって必要な情報を探せる人工知能(2/2)

１．ReAct:わからなかったらググって、ググった情報を元にもう一度ググって必要な情報を探せる人工知能(2/2)まとめ・ReActの軌跡を用いてより小さな言語モデルの微調整を行うことも検討中・ReActが推論を誤った際、人間が道筋を編集...

2022.11.14

モデル基礎理論

language modeling

Vid2Seq：ビデオ内の各イベントを記述可能な事前学習済み視覚言語モデル(2/2)

言語モデル用のプロンプトエンジニアリングの経験則と実例

GPT-4は技術文章の翻訳にどこまで使えそうか？

最新のAIテクノロジーを使ってThe Lord of the Ringsの世界観の謎に迫る

2022年のGoogleのAI研究の成果と今後の展望～言語・視覚・生成モデル編～(4/5)

2022年のGoogleのAI研究の成果と今後の展望～言語・視覚・生成モデル編～(2/5)

CALM:簡単な語順には手間をかけないようにして人工知能による文章生成を高速化(2/2)

CALM:簡単な語順には手間をかけないようにして人工知能による文章生成を高速化(1/2)

Flan-U-PaLM:わずかな追加計算で大規模言語モデルの性能を向上(2/2)

Flan-U-PaLM:わずかな追加計算で大規模言語モデルの性能を向上(1/2)

人工知能はサイズを大きくすると今までできなかった事が突然できるようになる(1/2)

ReAct:わからなかったらググって、ググった情報を元にもう一度ググって必要な情報を探せる人工知能(2/2)