DocSolr9: カスタム設定

Title: カスタム設定

Solr には色々な日本語用設定が用意されています。

ユーザー辞書

日本語の文章は、辞書を元に単語に分けて解釈されます。多くの場合、標準の辞書で十分な検索精度を得られますが、新しい言葉や企業・組織での独自の言葉など、辞書にないキーワードの検索を行うと望むような検索精度を得られません。

このような場合、ユーザー辞書のファイルに予め「◯◯◯は×××と読む単語で、品詞は▲▲である」という内容の定義をしておき、それを Solr に読み込ませることで、検索精度の向上を図れます。

詳しくは、ユーザー辞書を参照してください。

一般的に不要な文字

「てにをは」や「です、ます」など、一般的に検索に不要で、含めることで検索のランキングにノイズを生じさせる単語が com.traction.extsearch.solr/etc/solr/configsets/traction_ja/conf/lang/stopwords_ja.txt に登録されています。

不要な品詞

検索実行時のノイズを減らすため、検索に不要と思われる品詞が com.traction.extsearch.solr/etc/solr/configsets/traction_ja/conf/lang/stoptags_ja.txt に登録されています。

既定では主に次の品詞が除外されます。

助詞
助動詞
句読点、。記号 ○◎@$〒→など
括弧記号 ({‘“『【 )}’”』」】など
文末の間投詞（〜だな）ぁなど

反復記号（踊り字）

踊り字、躍り字（おどりじ）は、主に日本語の表記で使用される約物（特殊記号）の一群で、々、ヽ、ゝなどがある。おどり、繰り返し符号（くりかえしふごう）、重ね字（かさねじ）、送り字（おくりじ）、揺すり字（ゆすりじ）、重字（じゅうじ）、重点（じゅうてん）、畳字（じょうじ）などとも呼ぶ。（Wikipedia より）

これを利用すると、例えば「みすゞ」という文字列を「みすず」という検索ワードでマッチさせることができるようになります。

詳しくは反復記号（踊り字）を参照してください。

「読み」による検索ヒット

例えば、「蜜柑」や「ミカン」を含む文章があったとき、「みかん」でもヒットするように設定できます。

詳しくは、「読み」で検索ヒットする設定を参照してください。

親記事に追加されている (1)

DocSolr1: Solr 高機能検索マニュアル目次

子記事を追加している (3)

DocSolr16: 反復記号（踊り字）DocSolr11: ユーザー辞書 DocSolr95: 「読み」で検索ヒットする設定

参照されている (1)

DocSolr1: Solr 高機能検索マニュアル目次

Article: DocSolr9 (permalink)
Date: 2018/06/25; 15時13分26秒 JST

Author Name: TeamPage サポート
Author ID: jpbo