データセット

データセット

Flan Collection:指示調整用のデータセットを更に充実(1/2)

1.Flan Collection:指示調整用のデータセットを更に充実(1/2)まとめ ・自然言語処理が新しいタスクに適応する能力は「指示調整」と呼ばれる多様な指示でモデルを訓練する事に起因する ・Flan Collectionは以前の...
データセット

Data Cards Playbook:データセットの透明性を高めるツールキット(2/2)

1.Data Cards Playbook:データセットの透明性を高めるツールキット(2/2)まとめ ・PlaybookはAsk、Inspect、Answer、Auditという4つのモジュールで構成 ・各モジュールには透明性の問題に対処...
データセット

Data Cards Playbook:データセットの透明性を高めるツールキット(1/2)

1.Data Cards Playbook:データセットの透明性を高めるツールキット(1/2)まとめ ・データセットの起源、開発、意図等に関する理解の共有は重要度が高まっている・しかしデータセットに関する知識はチームや個人間で分散して...
データセット

Open Images V7:新たに疎らなラベルであるポイントラベルを採用(2/2)

1.Open Images V7:新たに疎らなラベルであるポイントラベルを採用(2/2)まとめ ・Open Images v7は注釈データを視覚化する仕組みも従来より充実している ・ポイントレベル注釈を含む全ての注釈を確認できるオールイ...
データセット

Open Images V7:新たに疎らなラベルであるポイントラベルを採用(1/2)

1.Open Images V7:新たに疎らなラベルであるポイントラベルを採用(1/2)まとめ ・Open Imagesは約900万枚の画像に様々なラベルを付与した大規模データセット ・この度、ポイントレベルラベルという新しい疎らな注釈...
データセット

UL2 20B:オープンソースとして公開された200億パラメータを持つ統一言語モデル(2/2)

1.UL2 20B:オープンソースとして公開された200億パラメータを持つ統一言語モデル(2/2)まとめ ・UL2は異なる事前学習から得られる能力と帰納的バイアスをモデルに付与可能 ・従来モデルは微調整タスクとプロンプトベースの1ショッ...
データセット

UL2 20B:オープンソースとして公開された200億パラメータを持つ統一言語モデル(1/2)

1.UL2 20B:オープンソースとして公開された200億パラメータを持つ統一言語モデル(1/2)まとめ ・言語モデルは事前学習のやり方により得意なタスクと不得意タスクが分かれる ・事前学習用の効果的な統一フレームワークを作成があればよ...
データセット

XM3600:人が翻訳した説明文が付いた地理的に多様な多言語キャプションデータセット(2/2)

1.XM3600:人が翻訳した説明文が付いた地理的に多様な多言語キャプションデータセット(2/2)まとめ ・36言語のほとんどで適切な地域から100枚の画像を収集する事に成功した ・注釈付け作業も画像の内容のみに基づいてキャプションを生...
データセット

XM3600:人が翻訳した説明文が付いた地理的に多様な多言語キャプションデータセット(1/2)

1.XM3600:人が翻訳した説明文が付いた地理的に多様な多言語キャプションデータセット(1/2)まとめ ・画像キャプショニングは画像に対する説明文を自動的に生成する機械学習タスク ・視覚情報と言語情報を同時に扱うためマルチモーダル研究...
データセット

特許フレーズ類似性データセットの発表(2/2)

1.特許フレーズ類似性データセットの発表(2/2)まとめ ・特許フレーズ類似性データセットの有用性はKaggle競技会の結果で確認できた ・既存のNLPモデルと比較して大幅な改善を達成できる事が実証された ・Kaggleの設問は人間の...
データセット

特許フレーズ類似性データセットの発表(1/2)

1.特許フレーズ類似性データセットの発表(1/2)まとめ ・特許文書では文脈に依存する用語が口語的な意味と全く異なる事がある ・これにより特許文書を従来の方法(キーワード検索など)で検索するのは困難 ・この課題に挑戦する次世代モデルの...
データセット

Google Universal Image Embeddingチャレンジの紹介(2/2)

1.Google Universal Image Embeddingチャレンジの紹介(2/2)まとめ ・同じ実体レベルの認識でもランドマークとアパレルでは実体にばらつきがあり性質が異なる ・従来の実体レベル認識を競うコンペでは対象とする...
タイトルとURLをコピーしました