首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 开发语言 > VC/MFC >

MFC上怎么实现对网页下的doc文档和pdf文档的抓取

2012-11-09 
MFC下如何实现对网页上的doc文档和pdf文档的抓取。请问源代码中对于doc文档与pdf文档有什么标识吗? 让程序

MFC下如何实现对网页上的doc文档和pdf文档的抓取。
请问源代码中对于doc文档与pdf文档有什么标识吗? 让程序能根据标识去获取该网页上的.doc 文档与pdf文档。

[解决办法]
VC网页截图,评价很不错,不过我没试过,呵呵。没资源分,M我,传你。

http://download.csdn.net/download/yemingwy/1960776
[解决办法]
PDF特征:
文件开始处类似

Assembly code
%PDF-1.5%档档1 0 obj<</Type/Catalog/Pages 2 0 R/Lang(zh-CN) /StructTreeRoot 65 0 R/MarkInfo<</Marked true>>>>endobj2 0 obj<</Type/Pages/Count 2/Kids[ 3 0 R 53 0 R] >>
[解决办法]
DOC文档开始一般16进制都是:
D0 CF 11 E0 A1 B1 1A E1 00 00 00 00 00 00

[解决办法]
探讨
引用:
DOC文档开始一般16进制都是:
D0 CF 11 E0 A1 B1 1A E1 00 00 00 00 00 00

首先我想说,承蒙阁下赐教十分感激,但是阁下回答的和我想问的好像不一致。
阁下的意思是在解答对于不同的文本文件我来判断哪些是doc文件吧!

我的问题是想在网页的html中找到一个指向doc文档的链接,或者找到标识此处存在一个doc文档,以便让……

[解决办法]
但是这个链接有什么特征呢? 难道我要去所有的链接里找doc这个词吗?

是的,你至少应该这样做,在html中,
1、解析a标记中的href属性
2、也可能其它标记的src属性
3、也可能脚本中的html构造
....
看是否有包含你感兴趣的文件扩展名的URL

但web数据传送,并不遵循 os 文件命名规范
更多的判断,就是对所有可疑连接进行"HEAD"请求,解释header返回数据,判断其数据类型
[解决办法]
探讨
但是这个链接有什么特征呢? 难道我要去所有的链接里找doc这个词吗?

是的,你至少应该这样做,在html中,
1、解析a标记中的href属性
2、也可能其它标记的src属性
3、也可能脚本中的html构造
....
看是否有包含你感兴趣的文件扩展名的URL

但web数据传送,并不遵循 os 文件命名规范
更多的判断,就是对所有可疑连接进行"HEAD"请求,解释header返……

热点排行