accessibility

データセット

XM3600:人が翻訳した説明文が付いた地理的に多様な多言語キャプションデータセット(1/2)

1.XM3600:人が翻訳した説明文が付いた地理的に多様な多言語キャプションデータセット(1/2)まとめ・画像キャプショニングは画像に対する説明文を自動的に生成する機械学習タスク・視覚情報と言語情報を同時に扱うためマルチモーダル研究の中核を...
アプリケーション

スマートフォンでウェアラブルデバイスに匹敵する視線追跡を実現(3/3)

1.スマートフォンでウェアラブルデバイスに匹敵する視線追跡を実現(3/3)まとめ・アイトラッカーは覚醒状態や健康状態を検出するためのツールとして使用可能・精神的疲労感がある人とない人では視線の軌跡が大きく変わる事などを利用する・ALS、脳卒...
アプリケーション

スマートフォンでウェアラブルデバイスに匹敵する視線追跡を実現(2/3)

1.スマートフォンでウェアラブルデバイスに匹敵する視線追跡を実現(2/3)まとめ・スマートフォンのアイトラッカーは、最先端のウェアラブルデバイスのアイトラッカーに匹敵・実験室などで使われる100倍高価なアイトラッカーから得られるデータとも類...
アプリケーション

スマートフォンでウェアラブルデバイスに匹敵する視線追跡を実現(1/3)

1.スマートフォンでウェアラブルデバイスに匹敵する視線追跡を実現(1/3)まとめ・眼球の運動を追跡する事はヘルスケアや様々なアプリケーションで役立つ可能性がある・従来は高価な専用のハードウェアが必要となるため進歩の速度が限られていた・スマー...
アプリケーション

IconNet:スマホ画面上のアイコンを検出して音声でアプリ操作を可能にする(2/2)

1.IconNet:スマホ画面上のアイコンを検出して音声でアプリ操作を可能にする(2/2)まとめ・デバイス上で実行するためバックボーンの幅と深さをパフォーマンスに影響を与えずに削減・バックボーン選択後ニューラルアーキテクチャ探索(NAS)を...
アプリケーション

IconNet:スマホ画面上のアイコンを検出して音声でアプリ操作を可能にする(1/2)

1.IconNet:スマホ画面上のアイコンを検出して音声でアプリ操作を可能にする(1/2)まとめ・Android用アプリのVoice Accessを使用するとユーザーは口頭で指示してアプリ操作可能・アイコン情報を提供していないアプリもあるの...
AI関連その他

Google Research:2020年の振り返りと2021年以降に向けて(1/5)

1.Google Research:2020年の振り返りと2021年以降に向けて(1/5)まとめ・年始の恒例のGoogle Researchの去年の振り返りと今年の展望の主要なハイライト・COVID-19を中心とした医療関係におけるAIの活...
アプリケーション

ビデオ会議時に手話で発言権を確保できるようにする(1/2)

1.ビデオ会議時に手話で発言権を確保できるようにする(1/2)まとめ・ビデオ会議で手話を検知するのは全カメラのビデオ入力を分類対象とする必要があり困難・以前の試みで通話品質への影響を最小限に抑えるために軽量モデルが重要な事が判明・そのためP...
入門/解説

Google Research:2019年の振り返りと2020年以降に向けて(2/8)

1.Google Research:2019年の振り返りと2020年以降に向けて(2/8)まとめ・AIの他の分野への応用では様々な組織とコラボし多くの論文発表や芸術作品に繋がった・日常生活を支援するAIとしては視覚、聴覚、音声に困難を抱える...
入門/解説

Turbo:視覚化のために改良した虹色のカラーマップ(2/2)

1.Turbo:視覚化のために改良した虹色のカラーマップ(2/2)まとめ・Turboは高コントラストでスムーズな視覚化が必要な日常的な動作を対象とした新しいカラーマップ・連続的な値とプラスマイナスに分かれる値の両方に使用できるため広範囲なデ...
学習手法

Project Euphoniaの非標準音声用のパーソナライズされた音声認識(1/2)

1.Project Euphoniaの非標準音声用にパーソナライズした音声認識(1/2)まとめ・Project Euphoniaは音声認識モデルを改良して様々な非定形音声を適切に転写する事が目標・一般的な音声モデルでトレーニングした後に個人...
モデル

Parrotron:発声が困難な人のために音声コミュニケーションを改善する試み(3/3)

1.Parrotron:発声が困難な人のために音声コミュニケーションを改善する試み(3/3)まとめ・Parrotronはエンドツーエンドで音声を変換するため従来のカスケード型システムより優位性がある・第一に仮に誤認識をしても、音響的に似た音...