みぃちゃんの頭の中はおもちゃ箱

略してみちゃばこ。泣いたり笑ったり

¥p{Block:CJK} と々

2014年10月31日 21時34分26秒 | IT・デジタル
Perlで日本語テキストを処理しました。その なかで日本語の文字と それ以外の文字をわけました。いま つかっているPerl 5.18では、正規表現の なかでUnicodeの文字プロパティを使用でき、\p{Block:CJK} (または \p{InCJK}) と記述することで漢字1字にマッチさせることが できます。この \p{Block:CJK} を使用してマッチングしたところ、なぜか日本語の単語が こまぎれに なる箇所が でてきました。

しらべてみると、くりかえし記号 (々) の箇所で きれています。

そうでした。々は漢字では なく記号なので、\p{Block:CJK} にはマッチしないのでした。

※ この記事の本文からは漢字の訓を排除しています。