Perl 5.18の正規表現では、Unicodeのプロパティを使用して文字を比較できます。このとき、「・」(なかぐろ) と「-」(長音記号) は \p{InKatakana} にマッチし、\P{InKatakana} にマッチしません。
なかぐろは かならずしもカタカナ語の くぎりとして使用されるとは かぎらないので、なかぐろが \p{InKatakana} にマッチするのは、ありがたいことも あれば ありがたくないことも あります。
そんな こんなで日本語処理に ちょっと てまどってしまったのでした。
※ この記事の本文からは漢字の訓を排除しています。
なかぐろは かならずしもカタカナ語の くぎりとして使用されるとは かぎらないので、なかぐろが \p{InKatakana} にマッチするのは、ありがたいことも あれば ありがたくないことも あります。
そんな こんなで日本語処理に ちょっと てまどってしまったのでした。
※ この記事の本文からは漢字の訓を排除しています。