猫山さんの日記

写真付きで日記や趣味を書くならgooブログ

Fess再構築(10)

2024-06-13 | 日記
クロール結果にエラーが出ていた。
2024-06-13 07:42:13,236 [Crawler-20240613010000-2-2] ERROR Crawling Exception at smb://***.***.jp/***/***課/政策ヒア 資料/H27.10/PP資料/*** 改修内容全て.jpg
Caused by: org.opensearch.OpenSearchStatusException: OpenSearch exception [type=circuit_breaking_exception, reason=[parent] Data too large, data for [<http_request>]
opensearchのヒープメモリを増やす必要がありそうだ。
https://discuss.codelibs.org/t/fess-circuit-breaking-exception/1595/6

現状1G設定なので、とりあえずは2Gにしてみた。
$ vi /etc/opensearch/jvm.options
-Xms2g
-Xmx2g
$ sudo systemctl stop fess
$ sudo systemctl stop opensearch
$ sudo systemctl start opensearch
$ sudo systemctl start fess

ダッシュボードを確認すると、maxは2.00GBになっていた。
これで様子を見よう。

Fess再構築(9)

2024-06-10 | 日記
ログがいっぱい出ている。
異常だ。何がでているんだろう。

2024-06-07 17:32:03,837 [Crawler-20240607171946-1-1] INFO Crawling URL: smb://***.***.jp/***/***課/高齢者福祉/福祉票関係/2024/R6福祉票データ【202307】.xls
2024-06-07 17:32:05,161 [Crawler-20240607171946-1-1] WARN Requested format at index 57, but it wasn't found
同じメッセージが6300行あまり続いている。
検索してみたけれど、2010年のメーリングリスト記事くらいしか出てこない。
他の人の環境では発生していないのだろうか。
ということは、もしかして、javaのバージョンをシステム要件どおりにしなかったせいかな。

バージョンを切り替えよう。
$ sudo dnf install java-17-openjdk-devel
$ sudo alternatives --config java
$ sudo systemctl stop fess
$ sudo systemctl stop opensearch
$ sudo systemctl start opensearch
$ sudo systemctl start fess

問題のファイルがある場所だけクロールしてみよう。
この場所で例外は出なくなった(更新されてないからスキップされた?)けれど、
他の場所で同じ例外が出た。

また、違う警告も出ていた。
2024-06-10 13:37:26,687 [Crawler-20240610124052-1-1] INFO Crawling URL: smb://***.***.jp/***/***課/工事等の入札、契約/工事/№2JV用入札条件調書.doc
2024-06-10 13:37:26,734 [Crawler-20240610124052-1-1] WARN Unable to apply [SPRM] (0x7621): 23593472
java.lang.ArrayIndexOutOfBoundsException: arraycopy: last source index 3 out of bounds for short[2]
これもPOI関連だ。
ERRORは出ていないし、わからないのでしばらく様子を見るか。

Fess再構築(8)

2024-06-07 | 日記
クローラの実行スケジュールを考えよう。
毎日すべてクロールできれば最高だけど、それは無理だ。
1週間以内に作ったファイルの場所は覚えているだろうから、
1週間で1週できればいいだろう。

クロール対象フォルダごとのファイル数を調べた
大きいもので42万ファイル、全体で370万ファイルある。
Googleで検索すると、Fess管理者ガイドのファイルシステムのクロールに関する設定
が出てきて、1つのクロール設定を数万件以下にすることを推奨と記載されているけれど、
どうやらこれは古いもののようだ。
気にせず実行してみて、fess-crawler.logにERRORが出ていないか確認することにしよう。

こんなの出てきた
org.codelibs.fess.exception.InvalidQueryException: Failed query: {"timeout":"10000ms","query":
OfficeオープンXMLドキュメントらしい。
ワードで開くとちゃんと開く
もうひとつはPDF
Acrobat Readerで開ける。ほぼ画像
Thumbs.dbが出てきた
クロール対象から除外するパスに追加するのを忘れていた。
desktop.ini
なんでこんなものが・・・
最後は、テキストファイル
何も問題なさそうだけど、どうしてこんなものがtimeoutするんだろう

Fess再構築(7)

2024-06-06 | 日記
昨夜ひとつの課のフォルダをクロールしてみた。
エラーが出ていないか見てみよう。
/var/log/fess/fess-crawler.logを見てみると、気になるものがあった。
WARN OPC Compliance error [M4.1]: there is more than one core properties relationship in the package! POI will use only the first, but other software may reject this file.
クロール対象はxlsxファイルだ。
ある特定の相手からもらったものばかりこのエラーが出ている。
他のxlsxファイルは大丈夫なので、このまま様子を見よう。

Fess再構築(6)

2024-06-05 | 日記
OSを標準インストールしたままなので、データ領域を調整しよう。
homeはほぼ使わないので小さくし、/を大きくする。
resize2fsしようと思ったら、
Bad magic number in super-block と表示された。
何だろう。

CentOS7以後ファイルシステムがXFSになり、resize2fsが使えないそうな。
で、xfs_growfsを使うんだって。
さて、どうやるんだろう。
何と、縮小はできないんだって。バックアップ取って作り直せだって。
がびーん
・・・インストールし直した。

議会の答弁書フォルダとか区長要望の入っているフォルダは皆にとって重要なので、
全員が検索できるようにしよう。
マニュアルに記載があるとおり設定してみる。
https://fess.codelibs.org/ja/13.6/admin/general-guide.html#id41
(member:1.2.840.113556.1.4.1941:=%s)
クローラーのパーミッションをDomain Usersにしてクロールし直す。
・・・さて、検索できるかな。
何もひっかからない。マニュアルどおりではいけないようだ。

ディレクトリ上でアクセスできるファイルが、Fessの検索結果に表示されない
https://discuss.codelibs.org/t/fess/1201/3
に書いてあるとおり、
(&(objectClass=group)(sAMAccountName=Domain Users))
としたらうまくいった。