dak ブログ

python、rubyなどのプログラミング、MySQL、サーバーの設定などの備忘録。レゴの写真も。

文字列を文単位で区切る

2021-11-08 22:36:57 | 自然言語処理
文字列を文単位で区切る方法のメモ。

「。」、「?」、「!」を文の区切り文字として、文字列を文毎に区切ります。
import re;

str1 = '文です。文です。。。文です??文です?!文です'
sents = re.findall('(?:[^。?!]+[。?!]*|[^。?!]*[。?!]+)', str1)
print(sents)

実行結果
['文です。', '文です。。。', '文です??', '文です?!', '文です']