data generation

ヘルスケア

EHR-Safe:プライバシー保護のために医療記録を合成して学習用データを生成(2/2)

1.EHR-Safe:プライバシー保護のために医療記録を合成して学習用データを生成(2/2)まとめ ・EHR-Safeの忠実度は3つの指標から計測し、いずれも高い性能である事がわかった ・プライバシーに関する堅牢性も3つの攻撃手法を用いて検...
ヘルスケア

EHR-Safe:プライバシー保護のために医療記録を合成して学習用データを生成(1/2)

1.EHR-Safe:プライバシー保護のために医療記録を合成して学習用データを生成(1/2)まとめ ・電子健康記録を機械学習で学習させる事は患者ケアなどに多大な可能性がある ・しかし、データのプライバシーを確保しながら学習させる事は簡単では...
データセット

画像の説明文を利用して視覚的質問回答データを作成(2/2)

1.画像の説明文を利用して視覚的質問回答データを作成(2/2)まとめ ・質問回答モデルと質問生成モデルの両方を使用して一貫性をチェックした ・既存データセットから生成したサンプルの66%~87%が妥当と評価された ・従来データに存在しなかっ...
学習手法

GraphWorld:グラフニューラルネットワーク用データセットを自動生成(1/2)

1.GraphWorld:グラフニューラルネットワーク用データセットを自動生成(1/2)まとめ ・グラフニューラルネットワークは人気が高まっているがベンチマークセットは多くない ・グラフは相互接続性や接続の偏りなどで様々な形を持つが既存ベン...
データセット

RLDS: 強化学習用データセットの生成と共有をやりやすくするツール群(1/2)

1.RLDS: 強化学習用データセットの生成と共有をやりやすくするツール群(1/2)まとめ ・強化学習アルゴリズムの多くはエージェントが環境と大量に相互作用する学習データが必要 ・他で収集されたデータセットを再利用する事もできるが仕様がバラ...
データセット

C4_200M:文法エラー訂正用の合成データセット(1/2)

1.C4_200M:文法エラー訂正用の合成データセット(1/2)まとめ ・文法エラー修正とは、正しい文法やスペルを提案するため書き込みエラーをモデル化する試み ・近年GECの品質は大幅に向上したがこれは「翻訳」タスクを真似たアプローチをした...
学習手法

KELM:ナレッジグラフを言語モデルの事前トレーニング資料に統合

1.KELM:ナレッジグラフを言語モデルの事前トレーニング資料に統合まとめ ・大規模な自然言語処理モデルは、インターネットから取得した自然言語の資料を活用する ・自然言語のテキストだけでは、知識の範囲が限られるため他の情報源もある事が望まし...
入門/解説

DermGAN:機械学習トレーニング用に多様な皮膚状態の医療用画像を合成(2/2)

1.DermGAN:機械学習トレーニング用に多様な皮膚状態の医療用画像を合成(2/2)まとめ ・患部を撮影した医療画像のピントがあっているかどうかは、正確な診断のために重要 ・デジタルスライドは数千の小さなパーツを繋ぎ合わせて作成されており...