首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 开发语言 > perl python >

python提取pdf与word中的相干信息

2013-05-02 
python提取pdf与word中的相关信息对于正式发表的电子版pdf和word论文,需要用python脚本从文件的文本中提取

python提取pdf与word中的相关信息
对于正式发表的电子版pdf和word论文,需要用python脚本从文件的文本中提取其中的标题、作者、摘要、keyword信息,不考虑图片形式的pdf,数据量不大,效率重要度不大,已了解pypdf和pdfminer,不知如何实现,大家能否给个思路,谢谢!

[解决办法]
pdf:看pypdf和pdfminer的开发文档
word:使用其COM接口
[解决办法]
work可使用win32com吧

热点排行