
目次
TF-IDF(Term Frequency-Inverse Document Frequency)とは
TF-IDF(Term Frequency-Inverse Document Frequency)は情報検索やテキストマイニングで用いられる統計的な尺度です。特定の単語が文書集合全体の中でどれほど重要であるかを数値化するために使用されます。TF-IDFは単語の出現頻度(TF)と、その単語を含む文書の少なさ(IDF)を組み合わせて評価します。
TF(Term Frequency:単語頻度)は、特定の文書内で特定の単語が出現する頻度を表します。ある文書において、特定の単語が多く出現するほど、その単語はその文書にとって重要であると考えられます。しかし、TFだけでは、一般的な単語(例:「の」「に」「は」など)も重要であると評価されてしまう可能性があります。
IDF(Inverse Document Frequency:逆文書頻度)は、ある単語が文書集合全体でどれだけ一般的でないかを表します。IDFは、総文書数をその単語を含む文書数で割った値の対数をとることで計算されます。IDFが高いほど、その単語は特定の文書に特有であり、重要であると考えられます。
TF-IDFの計算と活用
「TF-IDFの計算と活用」に関して、以下を解説していきます。
- TF-IDFの計算方法
- TF-IDFの活用事例
TF-IDFの計算方法
TF-IDF値は、TF(単語頻度)とIDF(逆文書頻度)を掛け合わせることで算出されます。この計算によって、特定の文書において頻繁に出現し、かつ文書集合全体では珍しい単語ほど高い値を持つようになります。
TF-IDF値が高い単語は、その文書の内容を特徴づける重要なキーワードであると考えられます。そのため、TF-IDFは文書の検索や分類、キーワード抽出など、様々な自然言語処理タスクで利用されます。
項目 | 説明 | 計算式 |
---|---|---|
TF | 単語の出現頻度 | 文書内の単語の出現回数/文書の総単語数 |
IDF | 逆文書頻度 | log(総文書数/単語が出現する文書数) |
TF-IDF | TFとIDFの積 | TF * IDF |
備考 | 対数の底 | 通常は10またはe |
TF-IDFの活用事例
TF-IDFは、検索エンジンのランキングアルゴリズムにおいて、クエリと文書の関連性を評価するために利用されます。クエリに含まれる単語のTF-IDF値を文書ごとに計算し、その値を基にランキングを決定します。
TF-IDFは、文書を特定のカテゴリに分類するタスクにも利用できます。各カテゴリを代表する単語のTF-IDF値を計算し、文書に含まれる単語のTF-IDF値との類似度を比較することで、最適なカテゴリを決定します。
活用事例 | 説明 | 具体的な利用例 |
---|---|---|
検索エンジン | 関連文書の特定 | 検索クエリに対する関連性の高いWebページのランキング |
文書分類 | カテゴリ分け | ニュース記事をスポーツ、経済、政治などのカテゴリに分類 |
キーワード抽出 | 重要単語の抽出 | 文書の内容を要約するキーワードの自動抽出 |
スパムフィルタ | 迷惑メールの検出 | スパムメールに特有の単語を検出し、フィルタリング |