你的问题事实上包含几部分:将 PDF 转化为纯文本格式抽取其中部分内容格式化写入到 excel 中转换 PDF 有很多库可以完成,如下是通过 pdfminer 的示例:from cStringIO import StringIOfrom import PDFResourceManager, PDFPageInterpreterfrom import TextConverterfrom import LAParamsfrom import PDFPagedef convert_pdf_2_text(path):rsrcmgr = PDFResourceManager()retstr = StringIO()device = TextConverter(rsrcmgr, retstr, codec='utf-8', laparams=LAParams())interpreter = PDFPageInterpreter(rsrcmgr, device)with open(path, 'rb') as fp:for page in (fp, set()):(page)text = ()()()return text需要指出的是,pdfminer 不但可以将 PDF 转换为 text 文本,还可以转换为 HTML 等带有标签的文本。上面只是最简单的示例,如果每页有很独特的标志,你还可以按页单独处理。