SQLをやってみたいと思い立った。
最新技術を調べてみたらNew SQLというものがあり、無料で使えて書籍まで出ているCockroach DBを選んでみた。
以下、ゴキブリDBのAIとのやり取りwww
チャットは日本語でできるのか訊いてみたらwww
ゴキブリDBはなぜか日本語全文検索に対応していないことが事前に分かっていたので、いつになったら日本語に対応するのか訊いてみたらwww
どうやら日本語全文検索に対応する気は無いらしい。
このダメリカめが!
と思って、んじゃデコンパイル&クラックしちゃっていいかな?と訊いてみたらwww
本はアマゾンで販売されているのだが、何と!無料でPDFのE-bookとして入手可能なのだ。
日本語全文検索実装を研究したり、Cockroach DBへ移行するためのマイグレーションツールを作ってみたい。
【追伸】
https://jpn.nec.com/postgresql/technical_info/pg_bigm_v2.html
【追伸】
https://jpn.nec.com/postgresql/technical_info/pg_bigm_v2.html
pg_bigmを用いて日本語の全文検索を実行する
pg_bigmは、PostgreSQL本体では用意されていない日本語の高速な全文検索機能を提供するツールです。
【追伸その2】
https://zenn.dev/tbsten/scraps/e16a82adb63276
各言語のストップワードをまとめてるmarimoというプロジェクト的なのがあるらしい
日本語はここ
https://github.com/koheiw/marimo/blob/master/yaml/stopwords_ja.yml
https://qiita.com/junnohta999/items/ee4e8332a6ee3f8930bc
全文検索が使えるDBMSとしては、現在は MySQL(InnoDB) や Groonga の名前がまず候補として挙がってきますね。Groongaはことに、日本語との相性の良さ、検索の高速さが評価されているようです。
株式会社リコーも参加します
さて、株式会社リコーでは、社内で開発され、長らく使われてきたDBMSを「DoqueDB(ドックディービー)」という名称で公開することにしました。DoqueDBは日本語の全文検索に強みをもつ、SQLベースのRDBMSです。SQL拡張構文により、通常のデータ操作と全文検索をシームレスに組み合わせることが可能です。今回は、全文検索機能のうち ランキング検索 と 自然文検索 をご紹介しましょう。