Title:
カスタム設定
Solr には色々な日本語用設定が用意されています。
ユーザー辞書
日本語の文章は、辞書を元に単語に分けて解釈されます。多くの場合、標準の辞書で十分な検索精度を得られますが、新しい言葉や企業・組織での独自の言葉など、辞書にないキーワードの検索を行うと望むような検索精度を得られません。
このような場合、ユーザー辞書のファイルに予め「◯◯◯は×××と読む単語で、品詞は▲▲である」という内容の定義をしておき、それを Solr に読み込ませることで、検索精度の向上を図れます。
詳しくは、
ユーザー辞書
を参照してください。
一般的に不要な文字
「てにをは」や「です、ます」など、一般的に検索に不要で、含めることで検索のランキングにノイズを生じさせる単語が com.traction.extsearch.solr/etc/solr/configsets/traction_ja/conf/lang/stopwords_ja.txt に登録されています。
不要な品詞
検索実行時のノイズを減らすため、検索に不要と思われる品詞が com.
traction.
extsearch.
solr/
etc/
solr/
configsets/
traction_ja/
conf/
lang/
stoptags_ja.
txt に登録されています。
既定では主に次の品詞が除外されます。
助詞
助動詞
句読点 、。記号 ○◎@$〒→など
括弧記号
({‘“『【 )}’”』」】など
文末の間投詞 (〜だな)ぁ など
反復記号(踊り字)
踊り字、躍り字(おどりじ)は、主に日本語の表記で使用される約物(特殊記号)の一群で、々、ヽ、ゝなどがある。おどり、繰り返し符号(くりかえしふごう)、重ね字(かさねじ)、送り字(おくりじ)、揺すり字(ゆすりじ)、重字(じゅうじ)、重点(じゅうてん)、畳字(じょうじ)などとも呼ぶ。(
Wikipedia
より)
これを利用すると、例えば「みすゞ」という文字列を「みすず」という検索ワードでマッチさせることができるようになります。
詳しくは
反復記号(踊り字)
を参照してください。
「読み」による検索ヒット
例えば、「蜜柑」や「ミカン」を含む文章があったとき、「みかん」でもヒットするように設定できます。
詳しくは、
「読み」で検索ヒットする設定
を参照してください。
関連記事
親記事に追加されている
(1)
DocSolr1
:
Solr 高機能検索 マニュアル目次
子記事を追加している
(3)
DocSolr16
:
反復記号(踊り字)
DocSolr11
:
ユーザー辞書
DocSolr95
:
「読み」で検索ヒットする設定
参照されている
(1)
DocSolr1
:
Solr 高機能検索 マニュアル目次
Article: DocSolr9 (
permalink
)
Date: 2018/06/25; 15時13分26秒 JST
Author Name: TeamPage サポート
Author ID: jpbo