猫山さんの日記

写真付きで日記や趣味を書くならgooブログ

Fessを試してみよう(9)Wordを除外だ

2022-06-07 | 日記

日曜日にsoffice.binを100%にさせる犯人を見つけたけれど、
他にも同じような奴がいるかもしれない。
普段の仕事が詰まっているフォルダを検索対象にしてみると、
新たに6個のファイルを見つけた。
rtfファイルが2個、docファイルが1個、docxファイルが3個。

気づいたことがある。
どれも表かテキストボックスを使っていて、余白にはみ出している。
例えば役所の文書でよく見る、文書の右下に四角い枠があって、
中に担当者の所属氏名連絡先が入っているやつ。
これがはみだしているんだよー。○○めー!
はみだしていてもちゃんと印刷できるし、気にしない人は結構いる。
ということは、ファイルサーバ全体だと恐ろしい数になる。
どんどん生産されるだろうし、とても運用できないよ。

何か良い方法はないかな。
unoconvのオプションでは対処できない。
libreofficeを修正するとか、してもらう何て見当もつかない。
cpuが100%になったらsoffice.binをkillするのは難しい。
WORD文書だけサムネイルを作らないというのはどうかな?
PowerPointや画像のサムネイルは有用だけど、WORDのはいらないよね。

「サムネイル画像は検索結果のMIME Typeを元に生成されます。」
https://fess.codelibs.org/ja/13.12/config/thumbnail.html
だそうだけど、/usr/share/fess/bin/generate-thumbnailでは
MIME Typeを使っていない。もっと前で判定されているみたい。
じゃあ、このスクリプトを呼び出しているところを探そう。
# grep generate-thumbnail -rl /usr/share/fess/app/WEB-INF/
ひとつ出てきた。
/usr/share/fess/app/WEB-INF/classes/fess_thumbnail.xml
thumbnailManagerだって。
mimetypeがたくさん定義されているよ。
除外したい次の3つMIME Typeをコメントアウトしてやれば良さそうだ。
.doc application/msword
.docx application/vnd.openxmlformats-officedocument.wordprocessingml.document
.rtf application/rtf

こんな感じ
<!-- word除外
                <postConstruct name="addCondition">
                        <arg>"mimetype"</arg>
                        <arg>"application/vnd.openxmlformats-officedocument.wordprocessingml.document"</arg>
                </postConstruct>
-->
試しにクローラを動かしてみると、うまく動いた。
やった!これで稼働できそうだ。
今晩うちの係のフォルダ全体で稼働テストしてみよう。