model

データセット

Flan Collection:指示調整用のデータセットを更に充実(1/2)

1.Flan Collection:指示調整用のデータセットを更に充実(1/2)まとめ ・自然言語処理が新しいタスクに適応する能力は「指示調整」と呼ばれる多様な指示でモデルを訓練する事に起因する ・Flan Collectionは以前のFL...
ヘルスケア

プライバシーに配慮しながら医療現場の略語を解読可能な機械学習を実現(2/2)

1.プライバシーに配慮しながら医療現場の略語を解読可能な機械学習を実現(2/2)まとめ ・略語展開タスクは構造化されていないため性能計測が困難であったが新規にアルゴリズムを開発した ・医療用略語に対する理解は一般人で30%未満、医師で90%...
データセット

Crisscrossed Captions:画像とテキストの意味的類似性の探求(3/3)

1.Crisscrossed Captions:画像とテキストの意味的類似性の探求(3/3)まとめ ・文対文タスクと画像対文タスクでトレーニングされたマルチタスクモデルが最も優秀だった ・文対文のトレーニングを追加すると画像対文、文対画像で...
アプリケーション

より少ないデータから表形式データを推論することを学習(2/2)

1.より少ないデータから表形式データを推論することを学習(2/2)まとめ ・パフォーマンスを向上させるために反事実条件と合成の2つの新しい事前トレーニングを導入 ・経験則を用いてデータの一部分のみを使って計算効率を最適化出来ないかを調査 ・...
インフラ

GCP上で大きなモデルを動かした際のGPUの性能比較

1.GCP上で大きなモデルを動かした際のGPUの性能比較まとめ ・Colabで動かせないモデルをGCP上で実行するとColabの凄みを改めて実感する事になる ・GPUはベンチマークではなく実際のタスクやモデルで動かさないと性能差はわからない...
データセット

ToTTo:表から文を抽出する能力を測るためのデータセット(2/2)

1.ToTTo:表から文を抽出する能力を測るためのデータセット(2/2)まとめ ・最もパフォーマンスの高いモデルであっても約20%の確率で情報を幻覚化するように見える ・最先端のモデルでも幻覚、数値的推論、および稀なトピックに苦労している事...
モデル

人間による評価を使って要約を学ぶ(4/4)

1.人間による評価を使って要約を学ぶ(4/4)まとめ ・モデルは依然として不正確な要約を生成する可能性があり満点の要約は45%の割合で達成 ・人間がモデル出力の品質を簡単に評価できないようなタスクにも今回の手法を応用したい ・人間の好みに合...
学習手法

自己教師学習で音声特徴表現と個人専用モデルを改善(1/2)

1.自己教師学習で音声特徴表現と個人専用モデルを改善(1/2)まとめ ・非セマンティックタスクとは、声の調子など、人間の音声の「意味以外の側面」に焦点を当てたタスク ・従来のベンチマークでは非セマンティックタスク用の特徴表現が有用か否かを比...
入門/解説

組成の一般化能力の測定(3/3)

1.組成の一般化能力の測定(3/3)まとめ ・compound divergenceという新しい指標によりデータセットの難度を数値で表す事ができた ・代表的な3つの標準的なMLアーキテクチャは難度があがるにつれて正確性が直線的にさがってしま...
ヘルスケア

医療向けMLの開発から学んだ教訓(2/2)

1.医療向けMLの開発から学んだ教訓(2/2)まとめ ・機械学習を評価する際には不適切なチューニングでパフォーマンスが過大評価されてないか留意が必要 ・特に医療分野と機械学習分野では用語の意味が異なる「検証セット」が誤解を招く恐れがある ・...