Typescript で pdf ファイルのテキストを抽出する方法のメモ。
import * as pdfjs from 'pdfjs-dist/legacy/build/pdf'; function main() { const pdf_file: string = process.argv[2]; pdfjs.getDocument(pdf_file).promise.then((pdf: pdfjs.PDFDocumentProxy) => { console.log('pages: ' + pdf.numPages); for (let p = 1; p <= pdf.numPages; p++) { pdf.getPage(p).then((page) => { page.getTextContent().then((text_content) => { for (let i = 0; i < text_content.items.length; i++) { let item: any = text_content.items[i]; let str = item.str; str = str.replace(/[\r\n]+/g, ''); if (str.match(/^\s*$/)) continue; console.log(item.str); } }); }); } }); } main();