データセット

ニューラル機械翻訳におけるジェンダーバイアスを研究するためのデータセット(1/2)

１．ニューラル機械翻訳におけるジェンダーバイアスを研究するためのデータセット(1/2)まとめ・ニューラル機械翻訳は学習データ内の偏見やステレオタイプを翻訳に反映してしまう事がある・文を個々に翻訳しており、性別情報は必ずしも個々の文内に明...

2021.07.06

データセット公平性

１．PALMS：厳選した少量のデータセットを使ってGPT-3の動作を制御(2/2)まとめ・デリケートなトピックと望ましい行動の概要を決定し価値観をターゲットにしたデータを作成・価値観をターゲットにしたデータセットは80のサンプルを含みサ...

2021.06.28

データセットモデル

１．PALMS：厳選した少量のデータセットを使ってGPT-3の動作を制御(1/2)まとめ・GPT-3に質問をすると非常に偏った価値観をベースに回答をしてくる場合がある・少量の厳選したデータセットで価値観を微調整する事でこの偏った動作を是...

2021.06.27

データセットモデル

１．MIAP：Open Images Datasetの人間に付与された境界ボックスをより包含的に(2/2)まとめ・Open Imagesは「女の子」のラベルを「女性」に付与するかは作業者の感覚依存であった・MIAPでは知覚された性別表現...

2021.06.22

データセット公平性

１．MIAP：Open Images Datasetの人間に付与された境界ボックスをより包含的に(1/2)まとめ・Open Images ExtendedコレクションにMIAPデータセットを追加する事を発表・MIAPデータセットは元のO...

2021.06.21

データセット公平性

１．Data Cascades：皆モデルの開発をやりたいのです！データ整備ではなく！(2/2)まとめ・ML の専門家が「十分な専門知識を備えていない領域」でデータを管理する事も問題となる・対象領域の専門知識よりもMLの技術的な専門知識に...

2021.06.12

データセット基礎理論

１．Data Cascades：皆モデルの開発をやりたいのです！データ整備ではなく！(1/2)まとめ・機械学習ではモデル構築が優先されデータ関連作業の優先度が低くなる事はよくある・データ整備を軽視すると時間経過とともに技術的負債が発生し...

2021.06.11

データセット基礎理論

１．Crisscrossed Captions：画像とテキストの意味的類似性の探求(3/3)まとめ・文対文タスクと画像対文タスクでトレーニングされたマルチタスクモデルが最も優秀だった・文対文のトレーニングを追加すると画像対文、文対画像で...

2021.05.19

データセット

１．Crisscrossed Captions：画像とテキストの意味的類似性の探求(2/3)まとめ・類似性が高いと予想される新しいペアを抽出し、そのペアを人が評価する事にした・キャプションの類似性が高い画像同士は類似性が高い可能性がある...

2021.05.18

データセット

１．Crisscrossed Captions：画像とテキストの意味的類似性の探求(1/3)まとめ・自動画像キャプションはアルゴリズムで画像の説明を作成するタスクで目覚ましい進歩を遂げた・これにより視覚情報と言語情報を紐づける研究に利用...

2021.05.17

データセット

１．TracIn：トレーニング事例の影響を推定する簡単な方法(2/2)まとめ・TracInはクラスタリングアルゴリズム内の類似性関数として使用可能・TracInは「SGD(またはSGDの亜種)を使用してトレーニングしている事」以外に条件...

2021.02.21

データセット基礎理論

１．TracIn：トレーニング事例の影響を推定する簡単な方法(1/2)まとめ・トレーニングデータの品質はモデルのパフォーマンスに大きな影響を与える可能性がある・様々な手法が提案されているが追加リソースやトレーニングが必要であり採用が困難...

2021.02.20

データセット基礎理論