python提取pdf与word中的相关信息对于正式发表的电子版pdf和word论文,需要用python脚本从文件的文本中提取其中的标题、作者、摘要、keyword信息,不考虑图片形式的pdf,数据量不大,效率重要度不大,已了解pypdf和pdfminer,不知如何实现,大家能否给个思路,谢谢! [解决办法]pdf:看pypdf和pdfminer的开发文档word:使用其COM接口[解决办法]work可使用win32com吧