類似度と距離
類似度を測る
2つの単語が意味的に「似ている」かどうかをどうやって判断するのでしょうか? それはコサイン類似度で測ります。高次元空間で2つの矢印がなす角度を測るようなものです。
- 100% = 同じ意味(同じ方向)
- 50% = ある程度関連がある
- 0% = 無関係(直角)
- 負の値 = 反対の意味
魂の共鳴度を測定せよ。その名は「コサイン類似度」。
2つの単語ベクトルが、多次元空間でどれだけ同じ方向を向いているかを測る禁術だ。 角度が近ければ近いほど、その単語たちは意味的に「運命を共にする存在」ということになる。
- 100% = 魂の双子。同一の方向を見つめている
- 50% = 遠い親戚。なんとなく血は繋がってる
- 0% = 完全なる他人。直交=無関係
- 負の値 = 宿敵。真逆の意味を持つ者同士
類似度を計算
2D空間での単語
単語ベクトルは50次元以上の空間に存在しますが、2Dに投影することでクラスターを可視化できます。 似た意味を持つ単語は近くに現れます。
50次元の深淵を、人間の目に映せる2次元へと降ろす。
本来、単語ベクトルは人間には視認できない高次元の闘技場に存在している。 しかし、次元圧縮という秘術を使えば、その一端を2Dに投影できる。
すると見えてくる――意味のクラン(氏族)が群れをなして配置されている光景が。 動物たちは動物の領域に、王族は王族の領域に、概念は概念の領域に集まっている。 これが「意味空間」の地図だ。
単語マップ
2つの単語を選んでマップ上でハイライトしましょう。似た単語がどのようにクラスターを形成するか注目してください。
なぜこれが重要なのか
意味的類似度は多くのAI機能の基盤です:
- 検索:キーワードの完全一致ではなく、似た意味を持つ文書を見つける
- レコメンド:「Xが好きならYも好きかもしれない」
- 理解:「自動車」と「車」が同じ意味だと認識する
この技術は、AIの「理解力」を支える根幹の魔術である。
コサイン類似度があるからこそ、AIは以下の能力を手に入れた:
- 意味検索:「車」って検索したら「自動車」「クルマ」「カー」も引っかかる。文字列じゃなく、意味を見てるから
- レコメンド:「この映画好きなら、こっちも好きかも?」は、嗜好ベクトルの類似度計算
- 同義語認識:AIが「犬」と「ワンコ」を「同じようなもの」と判断できるのは、ベクトルが近いから
要するに:コサイン類似度は、AIが「意味を比較する」ための目であり、耳であり、第六感である。 これなしでは、AIはただの文字列マッチング機械に過ぎない。
まとめ
- コサイン類似度は2つのベクトルが同じ方向を向いているかを測る
- 似た意味 = 似たベクトル = 高い類似度スコア
- これにより意味的な検索と理解が可能になる
まとめ:意味空間の測量術
- コサイン類似度は、2つの魂(ベクトル)がどれだけ同じ方向を向いているかを測る
- 意味が近い=ベクトルの角度が近い=高次元空間での「ご近所さん」
- この測量術があるからこそ、AIは「意味で検索」「意味で理解」ができる
- 2D投影で見る単語マップは、意味空間の縮図であり、意味の氏族が可視化された地図である