MFC上怎么实现对网页下的doc文档和pdf文档的抓取
MFC下如何实现对网页上的doc文档和pdf文档的抓取。请问源代码中对于doc文档与pdf文档有什么标识吗? 让程序
MFC下如何实现对网页上的doc文档和pdf文档的抓取。
请问源代码中对于doc文档与pdf文档有什么标识吗? 让程序能根据标识去获取该网页上的.doc 文档与pdf文档。
[解决办法]
VC网页截图,评价很不错,不过我没试过,呵呵。没资源分,M我,传你。
http://download.csdn.net/download/yemingwy/1960776
[解决办法]
PDF特征:
文件开始处类似
Assembly code%PDF-1.5%档档1 0 obj<</Type/Catalog/Pages 2 0 R/Lang(zh-CN) /StructTreeRoot 65 0 R/MarkInfo<</Marked true>>>>endobj2 0 obj<</Type/Pages/Count 2/Kids[ 3 0 R 53 0 R] >>
[解决办法]
DOC文档开始一般16进制都是:
D0 CF 11 E0 A1 B1 1A E1 00 00 00 00 00 00
[解决办法]
[解决办法]
但是这个链接有什么特征呢? 难道我要去所有的链接里找doc这个词吗?
是的,你至少应该这样做,在html中,
1、解析a标记中的href属性
2、也可能其它标记的src属性
3、也可能脚本中的html构造
....
看是否有包含你感兴趣的文件扩展名的URL
但web数据传送,并不遵循 os 文件命名规范
更多的判断,就是对所有可疑连接进行"HEAD"请求,解释header返回数据,判断其数据类型
[解决办法]