人工知能/機械学習/データサイエンス関連用語集

人工知能/機械学習/データサイエンス関連関連用語集

Ablation study(アブレーションスタディ、アブレーション研究)

モデルを構成する要素を敢えて削除してその要素がモデルの性能にどのような貢献をしているのかを評価をする事

Annotation(アノテーション、注釈)

データセット内の各事例に対して、事例の内容を説明するために付与する説明の事。日本語訳する際は「ラベル」とした方がわかりやすいのですが、英語圏ではlabelとannotationは意識的な使い分けがされている場合があるので注意が必要です。具体的には「何かを分類するシステムの出力」の事をlabelと表記している場合がある。例えば「鳥の種類を判別する人工知能をannotationが付与された鳥画像データセットを使って学習をさせた後、不明な鳥画像を与えて分類させたところlabelとして3が出力された。label 3はclass「鶏」を表す」などです。しかし、特に使い分けせずにannotationをlabelとしているケースもあります。

Attention(アテンション、注意)

Attentionはモデルが重要な情報に注意(Attention)を払う事が出来るようにする仕組み。これにより重要度が低い情報にリソースを割かなくなるので効率が上昇します。技術的には、機械学習モデルが「様々な入力に様々な重みを割り当てる方法」を学習する事です。

Bias-Variance Tradeoff(偏りと分散のトレードオフ)

機械学習モデルを望ましい学習状態に保つための均衡の事。数学用語なので単語持つ本来の意味はあまり気にしないで以下を丸覚えしましょう。

「偏り(Bias)」とはモデルが予測した値と本当の値のズレの事
つまり「偏り」が大きいとは予測が外れている事なので、まだ学習できていない事を意味します。

「分散(Variance)」とは学習データに対するモデルの予測の散らばり具合
つまり「分散」が大きいとは学習データに対して様々な予測をしてしまっている事なので、学習データに捉われすぎてしまって過学習になっている事を意味します。

機械学習モデルの望ましい学習状態とは、ちゃんと学習は出来ているけど、過学習まではやりすぎではない均衡が取れている状態なので、この均衡状態をBias-Variance Tradeoffと言います。

ニューロンの重みの事をBias(バイアス)と呼ぶ事もありますが、そのBiasとは別です。

Context(コンテキスト、文脈)

直訳すると「文脈」。しかし、日本語の「文脈」より幅広く「状況」や「場面」、「お約束」などの概念も含まれます。例えば、サザエさんのcontextでは、サザエ姉さんに怒られるのはカツオであって、タラちゃんではないです。タラちゃんが怒られる文章を創作するAIがいたら、そのAIはサザエさんのcontextを理解できていません。GPT-2は少なくとも主要登場人物については指輪物語のコンテキストをほぼ完璧に理解しています。

Concept drift(コンセプトドリフト、概念漂流)

学習時に考えていた予測対象と現実世界の対象にズレが発生する事。例えば、スパム検出システムは当初は英文スパムを対象にしていたけれども、次にアヤシイ日本語が含まれるものが主流になり、更に段々と日本語が洗練されていきと、予測したい対象が時間の経過と共に変遷していくので、コンセプトドリフトによりモデルの有用性が低下していきます。

Data drift(データドリフト、データ漂流)

学習時に使ったデータと現実世界の実データにズレが発生する事。その結果、モデルの性能が低下します。例えば推薦システムに新しいモデルを組み込んだとすると、モデル組み込み前と組み込み後では推薦される商品が変わってくるので、その結果、ユーザの行動や特性も変わってきて、学習時のデータと現実世界のデータにズレが発生し、時間の経過と共にデータドリフトが起こる可能性が高くなります。

Data silo(データサイロ、縦割り型データ保管庫)

データが部署毎に独自の形式で保管されており横連携が出来ない事。サイロの元の意味は農産物や飼料などを貯蔵するために牧場などに設置してある縦長の建物です。これが転じてデータが部署毎に独自の形式で保管されており横連携が出来ず、分断化されている事をデータサイロ化と言います。データがサイロ化していると様々な部署からデータを迅速に集約するだけで大変な作業になり、データを有効活用してビジネス展開する事が困難になります。

Distillation(蒸留)

巨大で複雑なニューラルネットワーク(教師モデル)の入出力を使ってより小さくシンプルなニューラルネットワーク(生徒モデル)を学習させる手法。

Double descent(二重降下現象)

巨大なディープニューラルモデルが学習を進めるにつれて性能向上し、その後、過学習が起って性能低下し、その後、更にもう一度性能向上する現象の事。

従来信じられてきた理論であれば過学習が起ると機械学習モデルの性能はそのまま劣化していくはずですが、巨大な(過度にパラメータ化された)ディープニューラルモデルは、性能が上がったり下がったりを繰り返す事があり、まだ二重降下現象の理由は解明されていません

Embedding(エンベッディング、埋め込み)

そのままでは人工知能で扱いにくいデータ(画像、音声、文章等)を扱いやすいようにベクトル(0, 1, 0, …. ,1)に変換したもの。より類似したデータ同士がより似たようなベクトルになるように調整されます。AIはデータそのものではなくembeddingを学習します。

Ensemble(アンサンブル)

複数のモデルの出力を合わせて1つの出力とする手法。1つの優れたモデルより、複数のそこそこのモデルのアンサンブルの方が性能が高くなる事が多く、コンテストなどではアンサンブルを使ったチームが上位を占める事が多いです。

Edge(エッジ、先端 or 辺)

直訳すると先端。センサーや監視カメラなどのデータを収集する機器の事。従来はそんなに賢い事は出来ず収集したデータをクラウドに送信するくらいしか出来なかったのですが、AI/MLを組み込んでやる事で賢くなり従来は不可能であった事が色々と出来るようになりそうなので5Gとの連携で大きな飛躍が期待されている分野がエッジコンピューティング。また、グラフニューラルネットワークの文脈では「辺」の意味でエッジ、「頂点」の意味でノード、と言う単語が使われる時があります。

ETL(Extract/Transform/Load、イーティーエル)

ファイルからデータを抽出して(Extract)、日付等を求められている形式に変換し(Transform)、データベースに読み込む(Load)、等のビッグデータを取り込む際の一連の処理、もしくは、取り込み処理を行うツール群の事。ETLよりELTの順に処理する方が望ましい、もしくはELとTは別処理とするべき、など様々な議論があります。

Instance segmentation(インスタンスセグメンテーション)

実体のセグメンテーション。画像内に写っている特定の実体を切り出す事です。Instance segmentationは人、動物、車などの数える事が可能な物体の種別と描画範囲を識別し、個々の実体を区別するが、境界部分はそれほど細かく切り出さず、境界ボックスなどで囲んで表現する事が多いです。

MLOps

機械学習モデルの開発からリリースまでを迅速に行うためのツール群や概念の事。MLOpsの元となった単語はDevOpsといい、ソフトウェアの開発(Development)からリリースまでを迅速に行うためのツール群や概念の事です。代表的なイメージでは、GitでVersionを共同管理して、Jenkinsでコンパイルやテスト及びリリースを自動化して、Dockerで環境を丸ごと仮想化して管理など。AIやMLを開発する際やデータサイエンスプロジェクトにもこの概念は応用できるので~Opsの部分を色々と差し替えた単語がMLOps、AIOps、ModelOps、DataOpsなどが造語されています。

Model-Based Reinforcement Learning(MBRL、モデルベースの強化学習)

自分を取り巻く世界を支配する法則を意識している強化学習の事。強化学習の文脈で「モデルベース」と出てきた場合、このモデルとは「世界モデル(world model)」の事です。(ダイナミクスモデル(dynamics model)と呼ばれる事もあります)

世界モデルとは「その世界を支配する法則」の事です。例えば現実世界のモデル構造を知っていれば、リンゴが地面に落ちるのであればミカンも地面に落ちるはずだと推測できるので、わざわざミカンを空中に放り投げて試行錯誤する必要がなくなります。そのため、世界モデルを意識できるモデルベースの強化学習は学習回数を減らす事ができます。

実際、人間の赤ちゃんは「世界モデル」を探究する行為を行っている事が観察されており、人工知能と人間の学習効率の違いは、「世界モデル」を意識できているかの差であると考えられています。

「モデルフリー(Model-free)」の強化学習は「世界モデル」を意識できていないので、空中に放り投げた物体がどのようになるかは、その物体を空中に放り投げて結果を観察しなければ学習する事ができません。

Multi modal(マルチモーダル、多数のコミュニケーション手段を扱える事)

画像や音声、文章など様々な種類のコミュニケーション手段を扱える事。モダリティ(Modality)で調べると医療用語で「医療機器の種類やタイプを表す言葉」とか「様式」や「様相」が出てきて意味がわからなくなりますが、AI関連の文書を調べていて出てきた場合は「The method of communication(コミュニケーションの手法)」の意味で使われていて、Multi modalとは「様々な種類の入力を扱える事」の理解で良いです。

RPA(Robotic Process Automation)

事務処理などの従来は人間が行っている業務をソフトウェアで置き換えて自動化する事。例えばEXCELに人間がデータを手入力している業務があれば、EXCELはそのままで「EXCELにデータを入力するソフトウェア」を導入して自動化します。「そもそもそのEXCELデータは本当に必要なのか?」等の根本的な業務フローには手を加えないのでシステム改修を最小限に抑えながら人件費を削減できるとされています。自動化に使われるソフトウェアには必ずしもAIやMLが組み込まれているわけではありません。

Semantic(セマンティック、意味の)

単語の綴りではなく単語の持つ意味を意識する事。「山 標高 世界一」のようにキーワードを入力して検索する従来のキーワード検索に対して、「世界で一番高い山は?」のように自然な文章で検索する事を(文章の意味を理解した検索なので)セマンティック検索と呼びます。しかし、AI/ML用語としてはセマンティックセグメンテーションと言う全く違う意味でも使われるのでそちらも参照してください。

Semantic segmentation(セマンティックセグメンテーション)

意味のセグメンテーション。Semantic segmentationは個々の実体を区別せず「人が写っている部分の画素」であるかどうかのみを判別します。個々の実体を意識しないため、草、空、道路などの類似した質感または材質で構成されるような定まった形を持たない物体も取り扱い可能です。

Varidation data(ヴァリデーションデータ、検証用データ)

モデルの最終性能確認やハイパーパラメーターの調整を行うためのデータ。

その重要性にも関わらず使われ方が統一されておらず混乱が見られる用語です。私の理解する限りでは「人工知能/機械学習システムはtraining dataset(トレーニングデータ)を使って学習を行いつつ、training datasetと内容に重複がないtest dataset(テストデータ)を使って学習の進捗度合/一般化性能/過学習学習の有無などをチェックする。学習完了後、validation datasetを使って最終性能確認やハイパーパラメーターの調整などを行う」が最も一般的な用語の使われ方です。

しかし、機械学習分野に限定しても

・Test datasetとValidation datasetの役割を逆にしている文書がある
・Test datasetを使ってValidationを行う等の混乱を招きやすい表現も見かける
・簡略化のためにValidation datasetを用意していない場合もある
・逆にTest datasetを用意していない場合もある
ので、文脈を見て判断する必要が多分にあります。

更に、機械学習が様々な分野で使われるようになった結果、他の分野の既存用語定義との衝突が起きるケースがあり、例えば医療分野では通常「臨床検証セット(clinical validation set)」とはモデルの最終評価に使用するデータセットを意味します。

そのため、医療分野でvalidation setを使ってチューニング~を、的な話をしてしまうと、「とんでもない!」となってしまう事があるので、機械学習においても検証用途に使うデータセットは「チューニング セット(tuning set)」と表記した方が誤解がないとGoogleのヘルスケアチームは提言しています。

上記のように英語圏でも混乱が発生しているので共同研究を行う際は、test datasetとvalidation datasetの役割と定義について確認をしておく事が望ましいです。

タイトルとURLをコピーしました