クローラの実行スケジュールを考えよう。
毎日すべてクロールできれば最高だけど、それは無理だ。
1週間以内に作ったファイルの場所は覚えているだろうから、
1週間で1週できればいいだろう。
クロール対象フォルダごとのファイル数を調べた
大きいもので42万ファイル、全体で370万ファイルある。
Googleで検索すると、Fess管理者ガイドのファイルシステムのクロールに関する設定
が出てきて、1つのクロール設定を数万件以下にすることを推奨と記載されているけれど、
どうやらこれは古いもののようだ。
気にせず実行してみて、fess-crawler.logにERRORが出ていないか確認することにしよう。
こんなの出てきた
org.codelibs.fess.exception.InvalidQueryException: Failed query: {"timeout":"10000ms","query":
OfficeオープンXMLドキュメントらしい。
ワードで開くとちゃんと開く
もうひとつはPDF
Acrobat Readerで開ける。ほぼ画像
Thumbs.dbが出てきた
クロール対象から除外するパスに追加するのを忘れていた。
desktop.ini
なんでこんなものが・・・
最後は、テキストファイル
何も問題なさそうだけど、どうしてこんなものがtimeoutするんだろう
毎日すべてクロールできれば最高だけど、それは無理だ。
1週間以内に作ったファイルの場所は覚えているだろうから、
1週間で1週できればいいだろう。
クロール対象フォルダごとのファイル数を調べた
大きいもので42万ファイル、全体で370万ファイルある。
Googleで検索すると、Fess管理者ガイドのファイルシステムのクロールに関する設定
が出てきて、1つのクロール設定を数万件以下にすることを推奨と記載されているけれど、
どうやらこれは古いもののようだ。
気にせず実行してみて、fess-crawler.logにERRORが出ていないか確認することにしよう。
こんなの出てきた
org.codelibs.fess.exception.InvalidQueryException: Failed query: {"timeout":"10000ms","query":
OfficeオープンXMLドキュメントらしい。
ワードで開くとちゃんと開く
もうひとつはPDF
Acrobat Readerで開ける。ほぼ画像
Thumbs.dbが出てきた
クロール対象から除外するパスに追加するのを忘れていた。
desktop.ini
なんでこんなものが・・・
最後は、テキストファイル
何も問題なさそうだけど、どうしてこんなものがtimeoutするんだろう
※コメント投稿者のブログIDはブログ作成者のみに通知されます