来るべき英作文の壁に備えて、手持ちの英語論文をテキスト化して
コーパス(文章のデータベース)に使おうと思いまして。
Adobe Readerにも「テキストとして保存」の機能があるのだけど、
改行コードがおかしかったり(\rとか\r\rとか)、
ページが変わるところで空白挟まったりで、うまくいかなかったので。
あと、いちいちファイルを開いて保存し直すのもかなりダルい。
で、手っ取り早く変換できそうな(Mac用の)ツールを求めて、
Automatorを開いたら、それらしい項目があった!
1. Automator.app をひらく
2. 左側のメニューから、以下の2項目を右側のウィンドウに持ってくる
「指定されたFinder項目を取得」
「PDFからテキストを取り出す」
3. テキストにしたいPDFを、
「指定されたFinder項目を取得」へドラッグして、
「PDFからテキストを取り出す」で保存先を選んで、
右上の実行ボタンをクリック
保存しておけば(ワークフローでもアプリでも)、何度でもOK。
変換するファイルの数が多かったりするとエラーになるようですが、
エラーが出ても出力ファイルは無事にできていることが多いようです
コーパス(文章のデータベース)に使おうと思いまして。
Adobe Readerにも「テキストとして保存」の機能があるのだけど、
改行コードがおかしかったり(\rとか\r\rとか)、
ページが変わるところで空白挟まったりで、うまくいかなかったので。
あと、いちいちファイルを開いて保存し直すのもかなりダルい。
で、手っ取り早く変換できそうな(Mac用の)ツールを求めて、
Automatorを開いたら、それらしい項目があった!
1. Automator.app をひらく
2. 左側のメニューから、以下の2項目を右側のウィンドウに持ってくる
「指定されたFinder項目を取得」
「PDFからテキストを取り出す」
3. テキストにしたいPDFを、
「指定されたFinder項目を取得」へドラッグして、
「PDFからテキストを取り出す」で保存先を選んで、
右上の実行ボタンをクリック
保存しておけば(ワークフローでもアプリでも)、何度でもOK。
変換するファイルの数が多かったりするとエラーになるようですが、
エラーが出ても出力ファイルは無事にできていることが多いようです