基礎知識レッスン 3 / 4

類似度と距離

くだけた解説モード

類似度を測る

2つの単語が意味的に「似ている」かどうかをどうやって判断するのでしょうか？それはコサイン類似度で測ります。高次元空間で2つの矢印がなす角度を測るようなものです。

魂の共鳴度を測定せよ。その名は「コサイン類似度」。

2つの単語ベクトルが、多次元空間でどれだけ同じ方向を向いているかを測る禁術だ。角度が近ければ近いほど、その単語たちは意味的に「運命を共にする存在」ということになる。

↔

コサイン類似度 --

単語ベクトルは50次元以上の空間に存在しますが、2Dに投影することでクラスターを可視化できます。似た意味を持つ単語は近くに現れます。

50次元の深淵を、人間の目に映せる2次元へと降ろす。

本来、単語ベクトルは人間には視認できない高次元の闘技場に存在している。しかし、次元圧縮という秘術を使えば、その一端を2Dに投影できる。

すると見えてくる――意味のクラン（氏族）が群れをなして配置されている光景が。動物たちは動物の領域に、王族は王族の領域に、概念は概念の領域に集まっている。これが「意味空間」の地図だ。

2つの単語を選んでマップ上でハイライトしましょう。似た単語がどのようにクラスターを形成するか注目してください。

王族/性別動物場所概念

意味的類似度は多くのAI機能の基盤です：

この技術は、AIの「理解力」を支える根幹の魔術である。

コサイン類似度があるからこそ、AIは以下の能力を手に入れた：

要するに：コサイン類似度は、AIが「意味を比較する」ための目であり、耳であり、第六感である。これなしでは、AIはただの文字列マッチング機械に過ぎない。