モデル

モデル

Ihmehimmeli:スパイキングニューラルネットワークにおける時間的符号化(3/3)

1.Ihmehimmeli:スパイキングニューラルネットワークにおける時間的符号化(3/3)まとめ ・スパイクネットワークが数字の特徴をどのように学習したかも視覚化できた ・他にも生物にヒントを得た様々なニューラルネットワークを研究中 ・人...
モデル

Ihmehimmeli:スパイキングニューラルネットワークにおける時間的符号化(2/3)

1.Ihmehimmeli:スパイキングニューラルネットワークにおける時間的符号化(2/3)まとめ ・学習は従来の人工ニューラルネットワークと同様で逆伝播を使用して行われる ・スパイクネットワークはMNISTで97.96%の精度を達成し、こ...
モデル

VideoBERT:ビデオ内の画像と音声を組み合わせて学習(2/3)

1.VideoBERT:ビデオ内の画像と音声を組み合わせて学習(2/3)まとめ ・ビデオ内の画像とテキストを組み合わせたクロスモーダルな文章を元にVideoBERTを学習させた ・VideoBERTを、料理、ガーデニング、車両修理など、10...
モデル

モジュラーディープラーニング用の再帰的スケッチ(2/2)

1.モジュラーディープラーニング用の再帰的スケッチ(2/2)まとめ ・モジュラーディープネットワークは複数の独立したニューラルネットワークから構成される ・モジュラーディープネットワークに対応するスケッチは、再帰的なメカニズムで対処する ・...
モデル

Bi-Tempered Logistic Loss:ノイズの多いデータでニューラルネットをトレーニングするための損失関数(3/3)

1.Bi-Tempered Logistic Loss:ノイズの多いデータでニューラルネットをトレーニングするための損失関数(3/3)まとめ ・バイ テンパーは大きな外れ値にも小さな外れ値にもロジスティック損失より良く対応が出来ている ・今...
モデル

MediaPipeを利用してオンデバイスでリアルタイムに手の動きを知覚(2/2)

1.MediaPipeを利用してオンデバイスでリアルタイムに手の動きを知覚(2/2)まとめ ・手の形状を認識するランドマークモデルは手動でラベル付けされたデータに加えて合成画像も使用 ・純粋な合成画像では一般化性能が低下するため混合トレーニ...
モデル

MediaPipeを利用してオンデバイスでリアルタイムに手の動きを知覚(1/2)

1.MediaPipeを利用してオンデバイスでリアルタイムに手の動きを知覚(1/2)まとめ ・手は形状が自由に変化したり他の手と組み合わされる事もありリアルタイムな検知が難しい ・MediaPipeと言う様々な手法の知覚データを処理可能な機...
モデル

EfficientNet-EdgeTPU:アクセラレータでの実行に最適化したニューラルネット(2/2)

1.EfficientNet-EdgeTPU:アクセラレータでの実行に最適化したニューラルネット(2/2)まとめ ・EfficientNetsが主に使用する「深さ方向に分離可能な構造」はアクセラレータ上では必ずしも有効ではない ・通常のCN...
モデル

集積カプセルオートエンコーダー(5/6)

1.集積カプセルオートエンコーダー(5/6)まとめ ・OCAEは、パーツの姿勢をオブジェクトとして説明しようとする ・古いカプセルはEMベースの推論を使用してオブジェクトに対するパーツの投票をクラスタ化した ・新しいカプセルはK個の出力を持...
モデル

集積カプセルオートエンコーダー(3/6)

1.集積カプセルオートエンコーダー(3/6)まとめ ・オブジェクトカプセルは、様々な種類のオブジェクトに特化して学習できる事がわかった ・MNISTとSVHNを対象にしたカプセルオブジェクトをクラスタ化すると最先端の結果が得られた ・より表...
モデル

集積カプセルオートエンコーダー(2/6)

1.集積カプセルオートエンコーダー(2/6)まとめ ・カプセルネットワークは、画像からパーツとパーツのポーズを推測する ・次にパーツとポーズを使用してオブジェクトについて推論する事が出来る ・カプセルネットワークの手法は人間の知覚と似ている...
モデル

Parrotron:発声が困難な人のために音声コミュニケーションを改善する試み(3/3)

1.Parrotron:発声が困難な人のために音声コミュニケーションを改善する試み(3/3)まとめ ・Parrotronはエンドツーエンドで音声を変換するため従来のカスケード型システムより優位性がある ・第一に仮に誤認識をしても、音響的に似...