猫山さんの日記

写真付きで日記や趣味を書くならgooブログ

Fessを試してみよう(12)クロール対象とするパス

2022-06-12 | 日記

今朝はイベントの動員で5時起きだ。
こういうとき、必ずおなかの調子が悪くなる。
行きたくないからかな?

帰宅してからFessの様子を見た。
昨晩、企画課全体をクロールしたら、15時間もかかっていた。
あんまり長いと扱いにくいので、ジョブを2つに分割しよう。
ファイルサーバーのデータ量をみたところ、
企画課/1.0.0.1ほにゃらら
のように1.で始まるフォルダと、それ以外を分ければ大体半分になるようだ。
「クロール対象とするパス」に
.*/企画課/1\..*/.*
と書いて実行すると、マッチするファイルが見つからない。
(fess-crawler.logにはProcessing no docsと表示されている)
正規表現を何回書き直してもマッチしない。
何で?

もうわからないので、方針を変更しよう。PDFとそれ以外の2つに分割だ!
「クロール対象とするパス」に
.*\.pdf$
と書いて実行すると、これまたマッチしない。
何で?誰か助けて。

夕飯後、救世主が現れた。
「特定の拡張子のファイルのみクロールしたい」
https://ja.osdn.net/projects/fess/forums/18580/38282/
いやー素晴らしい。そういうことだったのかー!
というわけで、「クロール対象とするパス」に企画課直下を追加したら、
ちゃんと動いた。
#DISABLE_URL_ENCODE
.*/企画課/$
#DISABLE_URL_ENCODE
.*/企画課/1\..*/.*
Fessは簡単だっていうけれど、猫山はかなりつまづいているなあ。
運用を開始できるのはいつになるんだろう。