Perlで日本語テキストを処理しました。その なかで日本語の文字と それ以外の文字をわけました。いま つかっているPerl 5.18では、正規表現の なかでUnicodeの文字プロパティを使用でき、\p{Block:CJK} (または \p{InCJK}) と記述することで漢字1字にマッチさせることが できます。この \p{Block:CJK} を使用してマッチングしたところ、なぜか日本語の単語が こまぎれに なる箇所が でてきました。
しらべてみると、くりかえし記号 (々) の箇所で きれています。
そうでした。々は漢字では なく記号なので、\p{Block:CJK} にはマッチしないのでした。
※ この記事の本文からは漢字の訓を排除しています。
しらべてみると、くりかえし記号 (々) の箇所で きれています。
そうでした。々は漢字では なく記号なので、\p{Block:CJK} にはマッチしないのでした。
※ この記事の本文からは漢字の訓を排除しています。