オンデバイス

入門/解説

Pixel 4のNight Sightで撮影した天体写真(3/3)

1.Pixel 4のNight Sightで撮影した天体写真(3/3)まとめ ・人々は夜間は空が暗くなっている事を当然と思っているため空が明るく見えると撮影時刻を誤解する ・Night Sightでは撮影部分に空が含まれるとわざと空の部分を...
学習手法

MobileNetV3:次世代のオンデバイス視覚モデル(3/3)

1.MobileNetV3:次世代のオンデバイス視覚モデル(3/3)まとめ ・精度とEdge TPU上で実行された際の速度を両立させるAutoMLをした結果MobileNetEdgeTPUモデル誕生 ・既存のモバイルモデルよりも同一精度でよ...
学習手法

MobileNetV3:次世代のオンデバイス視覚モデル(2/3)

1.MobileNetV3:次世代のオンデバイス視覚モデル(2/3)まとめ ・MobileNetV3の探索スペースはh-swishとsqueeze-and-excitationで改良が施されている ・ネットワークの最後に新しい効率的な〆(l...
モデル

MobileNetV3:次世代のオンデバイス視覚モデル(1/3)

1.MobileNetV3:次世代のオンデバイス視覚モデル(1/3)まとめ ・スマートフォンなどのデバイス上で実行される事が前提のニューラルネットワークMobileNetV3の発表 ・オンデバイスでの実行に最適化されているがMobileNe...
その他の分野

Live Caption:オンデバイスで音声コンテンツに字幕を付与(2/2)

1.Live Caption:オンデバイスで音声コンテンツに字幕を付与(2/2)まとめ ・Live Captionを長時間駆動させる事を可能にするために様々な工夫が行われている ・例えばASR用のRNN-Tエンジンは電力消費が激しいので発話...
学習手法

Live Caption:オンデバイスで音声コンテンツに字幕を付与(1/2)

1.Live Caption:オンデバイスで音声コンテンツに字幕を付与(1/2)まとめ ・音声コンテンツに字幕を付ける新しいAndroidの機能、Live Captionが発表された ・現在Pixel 4およびPixel 4 XLで利用可能...
モデル

MediaPipeを利用してオンデバイスでリアルタイムに手の動きを知覚(2/2)

1.MediaPipeを利用してオンデバイスでリアルタイムに手の動きを知覚(2/2)まとめ ・手の形状を認識するランドマークモデルは手動でラベル付けされたデータに加えて合成画像も使用 ・純粋な合成画像では一般化性能が低下するため混合トレーニ...
モデル

MediaPipeを利用してオンデバイスでリアルタイムに手の動きを知覚(1/2)

1.MediaPipeを利用してオンデバイスでリアルタイムに手の動きを知覚(1/2)まとめ ・手は形状が自由に変化したり他の手と組み合わされる事もありリアルタイムな検知が難しい ・MediaPipeと言う様々な手法の知覚データを処理可能な機...
その他の分野

Pixel3のPlaygroundとGoogle Lensで世界を違う側面から見る(2/2)

1.Pixel3のPlaygroundとGoogle Lensで世界を違う側面から見る(2/2)まとめ ・Google LensはPixel 3のカメラとより深く統合された ・カメラに映った電話番号やURL、住所を認識し、関連アプリケーショ...
モデル

RNN-T:全てをニューラルネットワークで実装したオンデバイス音声認識の実現(2/2)

1.RNN-T:全てをニューラルネットワークで実装したオンデバイス音声認識の実現(2/2)まとめ ・RNN-Tモデルは従来モデルに比べて1/5のサイズ圧縮に成功 ・更にTensorFlow Liteのモデル最適化ツールキットで1/4にサイズ...
モデル

RNN-T:全てをニューラルネットワークで実装したオンデバイス音声認識の実現(1/2)

1.RNN-T:全てをニューラルネットワークで実装したオンデバイス音声認識の実現(1/2)まとめ ・スマホで実行可能ニューラルネットワークベースの音声認識が発表 ・音声をクラウドに送って認識する従来型システムより応答が早い ・コネクショニス...
学習手法

GboardにおけるRNNベースの手書き認識(2/2)

1.GboardにおけるRNNベースの手書き認識(1/2)まとめ ・タッチポイントをベジエ曲線にし、ベジエ曲線をQRNNでデコーダ行列に変換する ・デコーダ行列をCTCデコーダで最終的な文字に最も確からしい文字に変換する ・新しい文字認識モ...