人工知能/機械学習/データサイエンス関連用語集

人工知能/機械学習/データサイエンス関連関連用語集

Ablation study(アブレーションスタディ、アブレーション研究)
モデルを構成する要素を敢えて削除してその要素がモデルの性能にどのような貢献をしているのかを評価をする事
Attention(アテンション、注意)
Attentionはモデルが重要な情報に注意(Attention)を払う事が出来るようにする仕組み。これにより重要度が低い情報にリソースを割かなくなるので効率が上昇する。技術的には、機械学習モデルが「様々な入力に様々な重みを割り当てる方法」を学習する仕組みを実装する事。
Context(コンテキスト、文脈)

直訳すると「文脈」だが日本語の「文脈」より幅広く「状況」や「場面」、「お約束」などの概念も含まれる。例えば、サザエさんのcontextでは、サザエ姉さんに怒られるのはカツオであって、タラちゃんではない。タラちゃんが怒られる文章を創作するAIがいたら、そのAIはサザエさんのcontextを理解できていない。GPT-2は少なくとも主要登場人物については指輪物語のコンテキストをほぼ完璧に理解している。

Concept drift(コンセプトドリフト、概念漂流)

学習時に考えていた予測対象と現実世界の対象にズレが発生する事。例えば、スパム検出システムは当初は英文スパムを対象にしていたけれども、次にアヤシイ日本語が含まれるものが主流になり、更に段々と日本語が洗練されていきと、予測したい対象が時間の経過と共に変遷していくので、コンセプトドリフトによりモデルの有用性が低下していく。

Data drift(データドリフト、データ漂流)

学習時に使ったデータと現実世界の実データにズレが発生する事。その結果、モデルの性能が低下する。例えば推薦システムに新しいモデルを組み込んだとすると、モデル組み込み前と組み込み後では推薦される商品が変わってくるので、その結果、ユーザの行動や特性も変わってきて、学習時のデータと現実世界のデータにズレが発生し、時間の経過と共にデータドリフトが起こる可能性が高くなる。

Data silo(データサイロ、縦割り型データ保管庫)

サイロの元の意味は農産物や飼料などを貯蔵するために牧場などに設置してある縦長の建物の事。これが転じてデータが部署毎に独自の形式で保管されており横連携が出来ない分断化されている事をデータサイロ化と言う。

Embedding(エンベッディング、埋め込み)

そのままでは人工知能で扱いにくいデータ(画像、音声、文章等)を扱いやすいようにベクトル(0, 1, 0, …. ,1)に変換したもの。より類似したデータ同士がより似たようなベクトルになるように調整される。AIはデータそのものではなくembeddingを学習する。

Edge(エッジ、先端 or 辺)

直訳すると先端。センサーや監視カメラなどのデータを収集する機器の事。従来はそんなに賢い事は出来ず収集したデータをクラウドに送信するくらいしか出来なかったが、AI/MLを組み込んでやる事で賢くなり従来は不可能であった事が色々と出来るようになりそうなので5Gとの連携で大きな飛躍が期待されている分野がエッジコンピューティング。また、グラフニューラルネットワークでは「辺」の意味でエッジ、「頂点」の意味でノード、と言う単語が使われる時がある。

Instance segmentation(インスタンスセグメンテーション)

実体のセグメンテーション。画像内に写っている特定の実体を切り出す事。Instance segmentationは人、動物、車などの数える事が可能な物体の種別と描画範囲を識別し、個々の実体を区別するが、境界部分はそれほど細かく切り出さず、境界ボックスなどで囲んで表現。

MLOps

MLOpsの元となった単語はDevOpsといい、ソフトウェアの開発(Development)からリリースまでを迅速に行うためのツール群や概念の事。代表的なイメージでは、GitでVersionを共同管理して、Jenkinsでコンパイルやテスト及びリリースを自動化して、Dockerで環境を丸ごと仮想化して管理など。AIやMLを開発する際やデータサイエンスプロジェクトにもこの概念は応用できるので~Opsの部分を色々と差し替えた単語がMLOps、AIOps、ModelOps、DataOpsなどが造語されている。

Multi modal(マルチモーダル、多数のコミュニケーション手段を扱える事)

画像や音声、文章など様々な種類のコミュニケーション手段を扱える事。モダリティ(Modality)で調べると医療用語で「医療機器の種類やタイプを表す言葉」とか「様式」や「様相」が出てきて意味がわからなくなるけれども、AI関連の文書を調べていて出てきた場合は「The method of communication(コミュニケーションの手法)」の意味で使われていると思って良いです。

RPA(Robotic Process Automation)

事務処理業務などの従来は人間が行っている業務をソフトウェアで置き換えて自動化する事。例えばEXCELに人間がデータを手入力している業務があれば、EXCELはそのままで「EXCELにデータを入力するソフトウェア」を導入して自動化する。「そもそもそのEXCELデータは本当に必要なのか?」等の根本的な業務フローには手を加えないのでシステム改修を最小限に抑えながら人件費を削減できる。自動化に使われるソフトウェアには必ずしもAIやMLが組み込まれているわけではない

Semantic(セマンティック、意味の)

「山 標高 世界一」のようにキーワードを入力して検索する従来のキーワード検索に対して、「世界で一番高い山は?」のように自然文で検索する事を(文章の意味を理解した検索なので)セマンティック検索と呼ぶ。しかし、AI/ML用語としてはセマンティックセグメンテーションと言う全く違う意味でも使われるのでそちらも参照の事

Semantic segmentation(セマンティックセグメンテーション)

意味のセグメンテーション。Semantic segmentationは個々の実体を区別せず「人が写っている部分の画素」であるかどうかのみを判別。個々の実体を意識しないため、草、空、道路などの類似した質感または材質で構成されるような定まった形を持たない物体も取り扱い可能。

タイトルとURLをコピーしました