Title: カスタム設定

Solr には色々な日本語用設定が用意されています。



ユーザー辞書



日本語の文章は、辞書を元に単語に分けて解釈されます。多くの場合、標準の辞書で十分な検索精度を得られますが、新しい言葉や企業・組織での独自の言葉など、辞書にないキーワードの検索を行うと望むような検索精度を得られません。

このような場合、ユーザー辞書のファイルに予め「◯◯◯は×××と読む単語で、品詞は▲▲である」という内容の定義をしておき、それを Solr に読み込ませることで、検索精度の向上を図れます。

詳しくは、ユーザー辞書 を参照してください。

一般的に不要な文字



「てにをは」や「です、ます」など、一般的に検索に不要で、含めることで検索のランキングにノイズを生じさせる単語が com.traction.extsearch.solr/etc/solr/configsets/traction_ja/conf/lang/stopwords_ja.txt に登録されています。

不要な品詞



検索実行時のノイズを減らすため、検索に不要と思われる品詞が com.traction.extsearch.solr/etc/solr/configsets/traction_ja/conf/lang/stoptags_ja.txt に登録されています。

既定では主に次の品詞が除外されます。



反復記号(踊り字)



踊り字、躍り字(おどりじ)は、主に日本語の表記で使用される約物(特殊記号)の一群で、々、ヽ、ゝなどがある。おどり、繰り返し符号(くりかえしふごう)、重ね字(かさねじ)、送り字(おくりじ)、揺すり字(ゆすりじ)、重字(じゅうじ)、重点(じゅうてん)、畳字(じょうじ)などとも呼ぶ。(Wikipedia より)

これを利用すると、例えば「みすゞ」という文字列を「みすず」という検索ワードでマッチさせることができるようになります。

詳しくは 反復記号(踊り字) を参照してください。

「読み」による検索ヒット



例えば、「蜜柑」や「ミカン」を含む文章があったとき、「みかん」でもヒットするように設定できます。

詳しくは、「読み」で検索ヒットする設定 を参照してください。



関連記事
親記事に追加されている (1)
Article: DocSolr9 (permalink)
Date: 2018/06/25; 15時13分26秒 JST

Author Name: TeamPage サポート
Author ID: jpbo