埋め込み

テキストを数値の配列(ベクトル)に変換する技術。意味の近い文章は近いベクトルになるため、セマンティック検索の基盤となる。

仕組み

埋め込みモデルが、単語や文章の「意味」を数値で表現する:

「ログイン機能」→ [0.23, -0.15, 0.87, ..., 0.45](1536次元)
「認証システム」→ [0.25, -0.12, 0.89, ..., 0.43](近いベクトル)
「データベース設計」→ [-0.10, 0.67, -0.23, ..., 0.12](遠いベクトル)

主な埋め込みモデル

クラウド型(API):

ローカル型(無料):

埋め込みの特性

利点

限界

  1. 専門用語の扱い: 社内用語、業界特有の略語は汎用モデルで対応できない
  2. 文脈依存: 「Apple」が「リンゴ」か「企業名」か判断が難しい
  3. 否定の扱い: 「認証は不要」と「認証は必要」が近いベクトルになる場合がある
  4. 固有名詞: IDや特定の文字列は意味ベースでは検索しづらい

対策

コスト

クラウド型:

ローカル型:

主な用途

関連