OpenAIがテキストのembeddingを算出するAPIの価格を値下げ

１．OpenAIがテキストのembeddingを算出するAPIの価格を値下げまとめ

・openaiがGPT-3のモデルを使ってembeddingを作成するembeddingモデルの料金を引き下げる
・新しいモデルは従来５つに細分化されていたモデルを全て１つに統合したがほとんどを性能で上回る
・従来比４倍のより長い文脈に対応にも関わらず、embeddingsサイズの縮小も実現して使いやすくなる

２．embeddingモデルとは？

以下、openai.comより「Forecasting Potential Misuses of Language Models for Disinformation Campaigns—and How to Reduce Risk」の意訳です。元記事の投稿は2022年12月15日、Ryan Greeneさん、Ted Sandersさん、Lilian Wengさん、Arvind Neelakantanさんによる投稿です。

去年の記事で且つ、ややマーケティングよりの記事でありましたが、Stable Diffusionでもembedding(埋め込み)の話が出たのでembeddingモデルという言い回しが気になったのと、ダビンチ先生のお給金高すぎ問題がようやく解決されたのと、元になっていると思われるGPT-3という単語も、人工知能という単語ももうアナウンス中に一切出てきていないので「製品になった」という感慨を改めて感じて意訳しました。

「2022年のデータサイエンス、機械学習、AI、アナリティクスの主要な進展」で出てきていた特徴表現保管庫(Feature Store)の実例ですね。

アイキャッチ画像はwaifu diffusionのカスタムモデルで一人でギターを弾いているナウシカとテト。本文の内容とはほぼ関係ありませんが、商業デビューした感じを出してみました。

私たちは、より高性能で、費用対効果が高く、使いやすい新しいembedding(埋め込み)モデルを発表することを楽しみにしています。

新しいモデル、text-embedding-ada-002は、テキスト検索(text search)、テキスト類似性(text similarity)、コード検索用(code search)の5つの別々のモデルを置き換え、99.8％値下げした低価格でありながら、ほとんどのタスクで従来の最も高性能なモデルDavinciを凌駕しています。

Embeddings(エンベッディング、日本語では「埋め込み」と訳される事が多いです)とは、概念を数列に変換して表現したもので、コンピュータがその概念の関係を理解しやすくするものです。

OpenAIのembeddingsエンドポイントの登場以来、多くのアプリケーションがエンベッディングを利用してコンテンツのパーソナライズ、推薦、検索を行っています。

import openai
response = openai.Embedding.create(
  input="porcine pals say",
  model="text-embedding-ada-002"
)

OpenAI Python Libraryを使えば、従来のモデルと同じように、2行のコードで新しいモデルの/embeddingsエンドポイントに問い合わせることができます。

モデルの改良

text-embedding-ada-002はテキスト検索、コード検索、文の類似性タスクにおいて全ての古いEmbeddingsモデルを上回り、テキスト分類では同等の性能を得ることができました。以下は、各タスクカテゴリについて、旧埋め込みで使用したデータセットでモデルを評価した結果です。

Text search

Model	Performance
text-embedding-ada-002	53.3
text-search-davinci-*-001	52.8
text-search-curie-*-001	50.9
text-search-babbage-*-001	50.4
text-search-ada-*-001	49

Dataset: BEIR (ArguAna, ClimateFEVER, DBPedia, FEVER, FiQA2018, HotpotQA, NFCorpus, QuoraRetrieval, SciFact, TRECCOVID, Touche2020)

Code search

Model	Performance
text-embedding-ada-002	86.8
code-search-babbage-*-001	86.6
code-search-ada-*-001	85.5

Dataset: CodeSearchNet

Sentence similarity

Model	Performance
text-embedding-ada-002	81.5
text-similarity-davinci-001	80.3
text-similarity-curie-001	80.1
text-similarity-babbage-001	80.1
text-similarity-ada-001	79.8

Dataset: SentEval (STS 2012–2016)

Text classification

Model	Performance
text-embedding-ada-002	90.1
text-similarity-davinci-001	92.2
text-similarity-curie-001	91.5
text-similarity-babbage-001	91.1
text-similarity-ada-001	89.3

Dataset: SentEval (MR, CR, SUBJ, MPQA, SST, TREC, MRPC)

機能の統一

上に示した5つの別々のモデル(text-similarity, text-search-query, text-search-doc, code-search-text, code-search-code)を単一の新しいモデルに統合することにより、/embeddingsエンドポイントのインターフェースを大幅に簡素化しました。この単一の特徴表現は、テキスト検索、文の類似性検知、コード検索の多様なベンチマークにおいて、私達の従来の埋め込みモデルよりも優れた性能を発揮します。

・長い文脈に対応
新しいモデルのコンテクスト長は2048から8192へと4倍に増加し、長文を扱う際の利便性が向上しました。

・embeddingsサイズの縮小
新しいembeddingsは1536次元と、davinci-001のembeddingsに比べ8分の1のサイズになり、ベクターデータベース内で扱う際の費用対効果が高くなりました。

・価格の引き下げ
新しいembeddingsモデルは、同じサイズの旧モデルと比較して、90％の価格低減を実現しました。新モデルは、旧Davinciモデルと同等以上の性能を達成しながら、99.8%の低価格を実現しました。

全体として、新しいembeddingsモデルは、自然言語処理とコード関連タスクのための、より強力なツールとなっています。お客様がこれを用いて、それぞれの分野でより高性能なアプリケーションをどのように作成されるのか、楽しみにしています。

制限事項

SentEval線形プロービング分類ベンチマークにおいて、新モデルtext-embedding-ada-002はtext-similarity-davinci-001を上回りません。分類予測のために埋め込みベクトルの上に軽量な線形層を学習する必要があるタスクでは、新しいモデルをtext-similarity-davinci-001と比較して、最適なパフォーマンスを与えるモデルを選択することをお勧めします。

embeddingsモデルの一般的な制限については、embeddingsドキュメントの Limitations & Risksセクションを確認してください。

Embeddings APIの動作例

Kalendar AIは、3億4千万人のプロファイルを含むデータセットから、適切な顧客に適切なセールストークをマッチングするためにembeddingsを使用する営業支援プロダクトです。この自動化では、顧客プロファイルのエンベッディングとセールストークの類似性を利用して、最も適したマッチングをランクアップし、従来のアプローチと比較して40-56%の不要なターゲティングを排除しています。

オンラインワークスペースを運営するNotionは、OpenAIの新しいエンベッディングを利用して、Notionの検索を現在のキーワードマッチングシステムよりも向上させる予定です。