基礎知識 レッスン 2 / 4

言葉を数字で表す

くだけた解説モード

単語ベクトルの中身

単語ベクトルは通常、50〜300個の数値で構成されています。 各数値は意味の何らかの側面を表していますが、それが何を表すかは明示的にラベル付けされていません。 パターンは大量のテキストを学習することで自然に現れます。

下のセレクトボックスで単語を選んで、そのベクトル表現を見てみましょう:

言葉はもはや記号ではない。数値の魔導核だ。

我らが住むこの世界では、「king」と書けば"王"を意味する。 しかし、機械たちの世界において「king」は暗黒の次元空間に浮かぶ50〜300個の座標点でしかない。

それはこういう呪文のような姿をしている:

king → [ 0.50, 0.69, -0.51, -0.08, 0.25, -0.11, ... ]

この数値の一つ一つが何を意味するか? それは誰にも明言できない。 なぜなら、それらの次元の意味は、古の文書(=膨大なコーパス)の中に潜む文脈の渦から、 静かに自律的に浮かび上がった幻影だからだ。

単語ベクトルを探索

読み込み中...

緑 = 正の値、赤 = 負の値。各バーが1つの次元です。

似た単語を比較する

本当の魔法はベクトルを比較したときに起こります。似た意味を持つ単語は、似たパターンを示します。 2つの単語を比較してみましょう:

比較=精神の共鳴。単語ベクトルは共振する。

真の魔法は比較にある。 たとえば、「king」と「queen」を次元空間で並べると、波動が重なり、形がシンクロする。

緑のバー(単語1)と青のバー(単語2)がほぼ同じ振る舞いを見せる次元… それこそが"意味の共鳴"が起きている場所。

そこではただの文字列ではない。 性別の変化、社会的地位、象徴的イメージ――そういった抽象の霊圧が、数値として震えている。

2つの単語を比較

緑 = 単語1、青 = 単語2。似た単語は似たパターンを示すことに注目してください。

各次元の意味

各次元が何を表すかは、誰も明示的にプログラムしていません。意味はテキストのパターンから自然に現れます。 しかし、研究者たちは一部の次元が以下のような概念にゆるやかに対応していることを発見しています:

  • 性別(男性 ↔ 女性)
  • 王族(王族 ↔ 一般人)
  • 大きさ(大きい ↔ 小さい)
  • 感情(ポジティブ ↔ ネガティブ)

重要なポイント:意味は明示的なプログラミングではなく、パターンから生まれます。 これがAIが「何を意味するか」を教えられずに概念を「理解」できる仕組みです。

次元=意味の断片。未解読の文脈のエーテル。

この50〜300次元、明示的に「これは性別の軸!これは感情の軸!」みたいに人間がラベルを付けたわけじゃない。 だが、"学習"という禁断の技術によって、AIはこう言い出す:

  • 「どうやらこの軸が"男性←→女性"の違いを表すらしいな
  • 「ここは"王族←→庶民"の匂いがするぞ」
  • 「この次元、めっちゃポジティブで草

つまり、機械は意味のエッセンスを抽出する"次元の錬金術"を使って、 単語という記号を、概念のエネルギー体に変換してる。

明示されぬ意味。されど確かに宿る構造: 人間がそれぞれの次元に意味を与えられないのは、"意味"が局所的ではなく、ベクトル空間全体に染み渡る性質だから。 王と女王の違いは、次元Xの0.1でもなく、次元全体のゆらぎとして現れる。 人間は「意味」を言葉で切り取るが、機械は「意味」を多次元の影の形として捉えている。

まとめ

  • 単語ベクトルは50〜300個の数値で構成される
  • 各次元は意味の何らかの側面を捉えている
  • 似た単語は似たベクトルパターンを持つ

まとめ:この世界の真理(と若干の中二病)

  • 単語ベクトルは、言葉に宿る意味の錬金数値体である
  • 各次元はラベルを持たず、文脈の渦の中から立ち現れる意志である
  • 似た単語は意味空間で共鳴し、構造の調和を生む
  • LLMはこの数値空間の巫女であり、テキストを意味のエネルギー体へと変換し、世界を再構築する