benchmark

FRMT:複数地域で使われる共通言語の微妙な差異を扱う能力を測る機械翻訳用ベンチマーク(2/2)

１．FRMT:複数地域で使われる共通言語の微妙な差異を扱う能力を測る機械翻訳用ベンチマーク(2/2)まとめ・各地域の専門家である注釈付け作業者が、MQMフレームワークを用いて、翻訳の誤りを分類した所、地域間の言語差異が補足できていた・人間の...

2023.03.08

データセット基礎理論

１．CaP：自分で自分の制御プログラムを書くロボットの実現に向けて(2/2)まとめ・大きなモデルはより良い性能を発揮し階層的なコードが生産性を最も改善する・コード執筆モデルはロボットの形状が異なっても実行可能なコードを生成可能・生成されたコ...

2022.11.07

ロボット学習手法

１．特許フレーズ類似性データセットの発表(2/2)まとめ・特許フレーズ類似性データセットの有用性はKaggle競技会の結果で確認できた・既存のNLPモデルと比較して大幅な改善を達成できる事が実証された・Kaggleの設問は人間の専門家にとっ...

2022.09.06

データセット

１．BLE:成層圏に到達可能な高高度気球の操作をシミュレートする強化学習環境(1/2)まとめ・機械学習の進歩の原動力となってきたのが、成果を測定可能なベンチマークテストの存在・高高度気球の制御という実世界の問題を扱う新しい強化学習用ベンチマ...

2022.02.26

学習手法

１．ディープラーニング比較用のベースラインを利用しやすくする(2/2)まとめ・不確実性ベースラインでは、モデル、データセット、評価指標を選択可能・各ベースラインのトレーニング/評価パイプラインはPythonファイルに含まれる・ベースライン間...

2021.10.21

基礎理論

１．FLAN：指示調整により初見タスク実行能力を向上した言語モデル(2/2)まとめ・FLANはGPT-3よりサイズが小さいがゼロショット設定のGPT-3を上回った・一部のタスクでは小数ショット設定のGPT-3よりも優れた結果を出した・モデル...

2021.10.11

モデル

１．RxR：多言語の案内指示に対応する能力を測るベンチマーク(2/2)まとめ・RxRには約1,000万語が含まれており既存のデータセットの約10倍の規模・RxRを使い現在の最良のモデルであっても人間の半分程度のスコアである事が判明・RxRを...

2021.01.31

基礎理論

１．AIのアルゴリズムの効率性は16か月毎に2倍に上昇(2/2)まとめ・少量のコンピューティングで達成された顕著な進歩の測定に力を注ぐことが重要・今後も効率的な最新技術を引き続き追跡し、視覚と翻訳タスク以外も追加して行く予定・未掲載のSOT...

2020.11.17

AI関連その他

１．オフライン強化学習における未解決の課題への取り組み(2/3)まとめ・D4RLは現実的なアプリケーションを念頭に作られたベンチマークである事が特徴・タスクの目的と違う目的を実行した記録から学習する能力などが試される・タスクと標準化されたデ...

2020.08.30

学習手法

１．Meta-Dataset：少数ショット学習用のデータセットのためのデータセット(2/3)まとめ・Meta-Datasetは少数ショット画像分類用のこれまでで最大規模の複数データセットを交えたベンチマーク・「事前トレーニング」と「メタ学習...

2020.05.22

ビッグデータ

１．Meta-Dataset：少数ショット学習用のデータセットのためのデータセット(1/3)まとめ・ディープラーニングのパフォーマンスは多くの場合、手動でラベル付けした大量の学習用データに依存・より少ないデータから学習する手法に関心が集まっ...

2020.05.21

入門／解説

１．XTREME：多言語対応能力を評価する多言語マルチタスクベンチマークまとめ・自然言語処理の主要な挑戦の1つは世界の全ての約6900言語で機能するシステムを構築すること・「多言語間で汎用的な言語の特徴」を学習しようとするモデルは増加してい...

2020.04.18

入門／解説