視覚

入門/解説

M4:超多言語、大規模ニューラル機械翻訳(2/3)

1.M4:超多言語、大規模ニューラル機械翻訳(2/3)まとめ ・使用可能なすべてのデータを使用してトレーニングすると低リソース言語の翻訳品質が劇的に向上 ・超多言語モデルは一般化に効果的であり多言語全体の特徴表現の類似性を捕捉できている可能...
学習手法

ROBEL:3Dプリンタで作成可能な強化学習用ロボット(3/3)

1.ROBEL:3Dプリンタで作成可能な強化学習用ロボット(3/3)まとめ ・ROBELは剛い物体も柔らかい物体も扱う事が出来、予期せぬ妨害や障害に関しても対応可能 ・複数のD'Clawが経験を共有することで、タスクをまとめてより速く学習す...
入門/解説

敵対的サンプルはバグではなく人間には知覚できない高度な特徴(2/5)

1.敵対的サンプルはバグではなく人間には知覚できない高度な特徴(2/5)まとめ ・敵対的サンプルがバグではなく人間にできない特徴説に対するコメント集 ・堅牢な特徴の定義から単純化したモデルを使って調査する案など様々 ・スタイル転送の際に堅牢...
モデル

Ihmehimmeli:スパイキングニューラルネットワークにおける時間的符号化(3/3)

1.Ihmehimmeli:スパイキングニューラルネットワークにおける時間的符号化(3/3)まとめ ・スパイクネットワークが数字の特徴をどのように学習したかも視覚化できた ・他にも生物にヒントを得た様々なニューラルネットワークを研究中 ・人...
ヘルスケア

ディープラーニングで皮膚疾患の鑑別診断を実現(2/3)

1.ディープラーニングで皮膚疾患の鑑別診断を実現(2/3)まとめ ・DLSの診断結果を比較したところ専門医ではない医療従事者より高い精度を達成した ・皮膚の色やタイプがDLSによる皮膚病の診断に影響を与えていない事も検証された ・年齢、性別...
学習手法

VideoBERT:ビデオ内の画像と音声を組み合わせて学習(3/3)

1.VideoBERT:ビデオ内の画像と音声を組み合わせて学習(3/3)まとめ ・VideoBERTはベースラインとした完全教師付き学習のtop-5 accuracyに匹敵する精度を達成 ・VideoBERTはヴィジュアルトークン作成時に細...
モデル

VideoBERT:ビデオ内の画像と音声を組み合わせて学習(2/3)

1.VideoBERT:ビデオ内の画像と音声を組み合わせて学習(2/3)まとめ ・ビデオ内の画像とテキストを組み合わせたクロスモーダルな文章を元にVideoBERTを学習させた ・VideoBERTを、料理、ガーデニング、車両修理など、10...
学習手法

VideoBERT:ビデオ内の画像と音声を組み合わせて学習(1/3)

1.VideoBERT:ビデオ内の画像と音声を組み合わせて学習(1/3)まとめ ・機械学習で動画内でどのような活動が行われているのかを認識させるのは困難 ・従来手法では細かくラベル付けされた大量の動画が必要になるがこれは高価 ・動画内の音声...
入門/解説

Google LensのGoogle Goバージョン(1/2)

1.Google LensのGoogle Goバージョン(1/2)まとめ ・Google Lensは読み書きに困難を感じている世界の8億人の人々を手助けできる潜在能力がある ・しかし、従来のGoogle Lensはある程度機能が高いスマート...
入門/解説

気候変動に対してAIは何が出来るのか?(1/4)

1.気候変動に対してAIは何が出来るのか?(1/4)まとめ ・気候変動とAIに関するワークショップの講演者へのインタビュー記事 ・インタビュアーのグレイグはワークショップを聞いてジョンにインタビューを申し込んだ ・講演者のジョンは気候変動に...
入門/解説

Bi-Tempered Logistic Loss:ノイズの多いデータでニューラルネットをトレーニングするための損失関数(2/3)

1.Bi-Tempered Logistic Loss:ノイズの多いデータでニューラルネットをトレーニングするための損失関数(2/3)まとめ ・バイテンパーは2つのパラメーターを使いロジスティック損失が持つ問題をうまく処理可能 ・パラメータ...
入門/解説

Bi-Tempered Logistic Loss:ノイズの多いデータでニューラルネットをトレーニングするための損失関数(1/3)

1.Bi-Tempered Logistic Loss:ノイズの多いデータでニューラルネットをトレーニングするための損失関数(1/3)まとめ ・ノイズの多いデータにニューラルネットワークが対応する能力は損失関数に大きく依存する ・分類タスク...