python提取pdf与word中的相干信息

2013-05-02

python提取pdf与word中的相关信息对于正式发表的电子版pdf和word论文，需要用python脚本从文件的文本中提取

python提取pdf与word中的相关信息
对于正式发表的电子版pdf和word论文，需要用python脚本从文件的文本中提取其中的标题、作者、摘要、keyword信息，不考虑图片形式的pdf，数据量不大，效率重要度不大，已了解pypdf和pdfminer，不知如何实现，大家能否给个思路，谢谢！

[解决办法]
pdf：看pypdf和pdfminer的开发文档
word：使用其COM接口
[解决办法]
work可使用win32com吧

热点排行

请问一个python调用其他程序运行出错的有
python一个正则表达式的写法有关问题
scrapy HtmlXpathSelector解决思路
问一个关于Python版本的有关问题
容易的perl正则表达式文本替换多个空行
容易含有中文语句无法运行，求解答
python 如何确定连接mssql server
python struct (对python obj进展编码解
python下划线定名
ubuntu12下怎么安装python3.2对应版本的

perl python

python提取pdf与word中的相干信息