data set

AI関連その他

The BirdCLEF 2023 Challenge:鳥の鳴き声を分類して生態系保存活動に役立てるkaggleコンペ(2/2)

1.The BirdCLEF 2023 Challenge:鳥の鳴き声を分類して生態系保存活動に役立てるkaggleコンペ(2/2)まとめ ・従来はF1スコアのような指標を使用していたが良いモデルであっても悪い閾値戦略をとると、パフォーマン...
AI関連その他

2022年のGoogleのAI研究の成果と今後の展望~研究コミュニティへの参加編~(2/2)まとめ

1.2022年のGoogleのAI研究の成果と今後の展望~研究コミュニティへの参加編~(2/2)まとめ ・Googleは研究コミュニティと協力的なエコシステムを構築するためにオープンソースでコードやデータセットを公開している ・2022年に...
データセット

FRMT:複数地域で使われる共通言語の微妙な差異を扱う能力を測る機械翻訳用ベンチマーク(1/2)

1.FRMT:複数地域で使われる共通言語の微妙な差異を扱う能力を測る機械翻訳用ベンチマーク(1/2)まとめ ・ブラジルとポルトガルではポルトガル語が話されているように多くの言語には、地域によって様々なバリエーションがある ・しかし、現在の機...
データセット

Flan Collection:指示調整用のデータセットを更に充実(2/2)

1.Flan Collection:指示調整用のデータセットを更に充実(2/2)まとめ ・Flan 2022を使って微調整したFlan-T5モデルは他の先行研究を上回る強力な汎用NLP推論器を実現できる事を示した ・単一タスクに特化した微調...
データセット

Flan Collection:指示調整用のデータセットを更に充実(1/2)

1.Flan Collection:指示調整用のデータセットを更に充実(1/2)まとめ ・自然言語処理が新しいタスクに適応する能力は「指示調整」と呼ばれる多様な指示でモデルを訓練する事に起因する ・Flan Collectionは以前のFL...
ヘルスケア

プライバシーに配慮しながら医療現場の略語を解読可能な機械学習を実現(1/2)

1.プライバシーに配慮しながら医療現場の略語を解読可能な機械学習を実現(1/2)まとめ ・多くの人が医療記録にアクセスできるようになったが専門的な略語が含まれているため理解する事が困難 ・医療現場で使われる略語は一般的でないものや重複するも...
ロボット

Interactive Language:ロボットとリアルタイムに会話で指示を行う(2/2)

1.Interactive Language:ロボットとリアルタイムに会話で指示を行う(2/2)まとめ ・注釈処理作業を工夫する事により大規模なLanguage-Tableデータセットを収集 ・Language-Tableデータセットは模倣...
ロボット

Interactive Language:ロボットとリアルタイムに会話で指示を行う(1/2)

1.Interactive Language:ロボットとリアルタイムに会話で指示を行う(1/2)まとめ ・ロボット学習のビジョンの一つは言語による命令に従う役に立つロボットの実現 ・従来のロボット学習システムに欠けているのは人間とのリアルタ...
アプリケーション

Googleチャットでの会話要約(2/2)

1.Googleチャットでの会話要約(2/2)まとめ ・知識蒸留でPegasusをTransformerとRNNのハイブリッド設計に蒸留した ・蒸留の結果Pegasusと同様の品質を保ちながら応答遅延とメモリ使用量を低減 ・低品質な要約をふ...
データセット

Data Cards Playbook:データセットの透明性を高めるツールキット(2/2)

1.Data Cards Playbook:データセットの透明性を高めるツールキット(2/2)まとめ ・PlaybookはAsk、Inspect、Answer、Auditという4つのモジュールで構成 ・各モジュールには透明性の問題に対処する...
データセット

Data Cards Playbook:データセットの透明性を高めるツールキット(1/2)

1.Data Cards Playbook:データセットの透明性を高めるツールキット(1/2)まとめ ・データセットの起源、開発、意図等に関する理解の共有は重要度が高まっている・しかしデータセットに関する知識はチームや個人間で分散してしまう...
データセット

XM3600:人が翻訳した説明文が付いた地理的に多様な多言語キャプションデータセット(2/2)

1.XM3600:人が翻訳した説明文が付いた地理的に多様な多言語キャプションデータセット(2/2)まとめ ・36言語のほとんどで適切な地域から100枚の画像を収集する事に成功した ・注釈付け作業も画像の内容のみに基づいてキャプションを生成す...