調査/研究

ビッグデータ

アメリカのデータサイエンス求人レポート2019(1/2)

1.アメリカのデータサイエンス求人レポート2019(1/2)まとめ ・アメリカのデータサイエンス求人でスキル要件として上げられる事の多いソフトウェアのランキング ・求人情報件数で比較するとRの求人はPythonの求人の約半数となっている ・...
入門/解説

SMILY:病理学のための人間中心の類似画像検索ツール(1/2)

1.SMILY:病理学のための人間中心の類似画像検索ツール(1/2)まとめ ・SMILYは機械学習を利用した類似画像検索で解剖病理学を支援する試み ・SMILYは病理画像について特別な学習をしておらずラベル付けデータも未使用 ・乳房、結腸、...
入門/解説

多言語化対応したユニバーサルセンテンスエンコーダーで意味検索(2/2)

1.多言語化対応したユニバーサルセンテンスエンコーダーで意味検索(2/2)まとめ ・USE-QAモジュールにより質問回答検索アプリケーションも実装可能 ・「香り(fragrance)」と「匂い(smell)」など単語間の意味的類似性も捕捉 ...
入門/解説

多言語化対応したユニバーサルセンテンスエンコーダーで意味検索(1/2)

1.多言語化対応したユニバーサルセンテンスエンコーダーで意味検索(1/2)まとめ ・USEは文章を特徴表現ベクトルに変換する汎用の文章embedding化モデル ・この度、多言語化対応と機能追加した3つのモジュールがリリース ・多言語化され...
ビッグデータ

データ拡張を教師なしで実現し半教師付き学習の性能を向上(2/2)

1.データ拡張を教師なしで実現し半教師付き学習の性能を向上(2/2)まとめ ・UDA、教師なしデータ拡張を使うと半教師付き学習が教師付き学習を上回る性能を出すようになる ・拡張元となるラベル付きデータが少なくとも多くとも教師付き学習の最先端...
入門/解説

データ拡張を教師なしで実現し半教師付き学習の性能を向上(1/2)

1.データ拡張を教師なしで実現し半教師付き学習の性能を向上(1/2)まとめ ・ラベル付きデータが不足している際にデータを水増しする手法は進歩している ・しかし、基本的には教師付き学習でのみ利用可能な手法であった ・今回、ラベルなしデータを教...
入門/解説

ディープニューラルネットワークにおける一般化ギャップの予測(2/2)

1.ディープニューラルネットワークにおける一般化ギャップの予測(2/2)まとめ ・一般化ギャップと対数変換したマージン分布の統計的情報はほぼ完全に線形回帰式で表現可能 ・マージン分布にモデルの一般化度合いに関する重要な情報が含まれている可能...
入門/解説

ディープニューラルネットワークにおける一般化ギャップの予測(1/2)

1.ディープニューラルネットワークにおける一般化ギャップの予測(1/2)まとめ ・トレーニング時に出てこなかった初見のデータに対応する能力を一般化と言う ・一般化ギャップとは「トレーニングデータ」と「初見データ」に対するパフォーマンスのギャ...
入門/解説

データサイエンス学習時にやりがちな3つの大きな間違い(1/3)

1.データサイエンス学習時にやりがちな3つの大きな間違い(1/3)まとめ ・データサイエンスは実務的な使われ方が優先される傾向があるが科学としての側面を持つ ・この前提に基づかないと適切にデータサイエンスを実践する事が非常に困難になる ・全...
入門/解説

Gen:新しいAI用プログラミング言語はディープラーニングを超える(2/2)

1.Gen:新しいAI用プログラミング言語はディープラーニングを超える(2/2)まとめ ・確率的プログラミングは、AIの新たなフロンティアとして有望視されている分野の1つ ・Genは確率的プラグラムの使用を容易にするため、問題に対して原理的...
入門/解説

Gen:新しいAI用プログラミング言語はディープラーニングを超える(1/2)

1.Gen:新しいAI用プログラミング言語はディープラーニングを超える(1/2)まとめ ・Genと言うjuliaベースの新しいプログラミング言語をMITが新たに開発 ・ディープラーニング以外の各種AIテクノロジーも部品として利用可能で効率的...
入門/解説

時系列予測に機械学習を使用する際の落とし穴(3/3)

1.予測に機械学習を使用する際の落とし穴(3/3)まとめ ・誤った精度測定基準を選択すると実際には予測できないデータも高い精度で予測できているように見える ・時系列データは時間的に相関する傾向があり、直前の値を予測値とする事で見かけ上は高い...