データセット

データセット

chatGPTの師匠はあなた!?人工知能が学習データを取得したWebサイトを調べる方法

1.chatGPTの師匠はあなた!?人工知能が学習データを取得したWebサイトを調べる方法まとめ ・現在の人工知能はインターネットから自動で収集したデータを学習に使っている事が多いが取得元がどこかは明確になっていない事が多い ・直近公開され...
データセット

FRMT:複数地域で使われる共通言語の微妙な差異を扱う能力を測る機械翻訳用ベンチマーク(2/2)

1.FRMT:複数地域で使われる共通言語の微妙な差異を扱う能力を測る機械翻訳用ベンチマーク(2/2)まとめ ・各地域の専門家である注釈付け作業者が、MQMフレームワークを用いて、翻訳の誤りを分類した所、地域間の言語差異が補足できていた ・人...
データセット

FRMT:複数地域で使われる共通言語の微妙な差異を扱う能力を測る機械翻訳用ベンチマーク(1/2)

1.FRMT:複数地域で使われる共通言語の微妙な差異を扱う能力を測る機械翻訳用ベンチマーク(1/2)まとめ ・ブラジルとポルトガルではポルトガル語が話されているように多くの言語には、地域によって様々なバリエーションがある ・しかし、現在の機...
データセット

Flan Collection:指示調整用のデータセットを更に充実(2/2)

1.Flan Collection:指示調整用のデータセットを更に充実(2/2)まとめ ・Flan 2022を使って微調整したFlan-T5モデルは他の先行研究を上回る強力な汎用NLP推論器を実現できる事を示した ・単一タスクに特化した微調...
データセット

Flan Collection:指示調整用のデータセットを更に充実(1/2)

1.Flan Collection:指示調整用のデータセットを更に充実(1/2)まとめ ・自然言語処理が新しいタスクに適応する能力は「指示調整」と呼ばれる多様な指示でモデルを訓練する事に起因する ・Flan Collectionは以前のFL...
データセット

Data Cards Playbook:データセットの透明性を高めるツールキット(2/2)

1.Data Cards Playbook:データセットの透明性を高めるツールキット(2/2)まとめ ・PlaybookはAsk、Inspect、Answer、Auditという4つのモジュールで構成 ・各モジュールには透明性の問題に対処する...
データセット

Data Cards Playbook:データセットの透明性を高めるツールキット(1/2)

1.Data Cards Playbook:データセットの透明性を高めるツールキット(1/2)まとめ ・データセットの起源、開発、意図等に関する理解の共有は重要度が高まっている・しかしデータセットに関する知識はチームや個人間で分散してしまう...
データセット

Open Images V7:新たに疎らなラベルであるポイントラベルを採用(2/2)

1.Open Images V7:新たに疎らなラベルであるポイントラベルを採用(2/2)まとめ ・Open Images v7は注釈データを視覚化する仕組みも従来より充実している ・ポイントレベル注釈を含む全ての注釈を確認できるオールインワ...
データセット

Open Images V7:新たに疎らなラベルであるポイントラベルを採用(1/2)

1.Open Images V7:新たに疎らなラベルであるポイントラベルを採用(1/2)まとめ ・Open Imagesは約900万枚の画像に様々なラベルを付与した大規模データセット ・この度、ポイントレベルラベルという新しい疎らな注釈を追...
データセット

UL2 20B:オープンソースとして公開された200億パラメータを持つ統一言語モデル(2/2)

1.UL2 20B:オープンソースとして公開された200億パラメータを持つ統一言語モデル(2/2)まとめ ・UL2は異なる事前学習から得られる能力と帰納的バイアスをモデルに付与可能 ・従来モデルは微調整タスクとプロンプトベースの1ショットタ...
データセット

UL2 20B:オープンソースとして公開された200億パラメータを持つ統一言語モデル(1/2)

1.UL2 20B:オープンソースとして公開された200億パラメータを持つ統一言語モデル(1/2)まとめ ・言語モデルは事前学習のやり方により得意なタスクと不得意タスクが分かれる ・事前学習用の効果的な統一フレームワークを作成があればより効...