首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 网络技术 > 网络基础 >

用浏览器拷贝粘贴不能用以提取网页正文吗

2013-01-06 
用浏览器拷贝粘贴不能用来提取网页正文吗?看了很多技术,各有所长,dom,正则等等.关于网页正文提取的一点困

用浏览器拷贝粘贴不能用来提取网页正文吗?
看了很多技术,各有所长,dom,正则等等.关于网页正文提取的一点困惑,高手莫笑。
如果不是提取特定内容,只想获得页面上所有文字,
用浏览器浏览网页的时候我们ctrl+a,ctrl+c,ctrl+v就可以获取全部的文字,
理论上只要我们用现成的控件做个浏览器,是不是就可以完成任务了?
为何没看到这种方法?
速度原因?
[解决办法]
三个问题:

(1)拷贝实际上是识别正文的问题。
(2)spider大量抓取页面,需要考虑解析一个页面的时间。浏览器来渲染毕竟很慢。



"拷贝粘贴",实际上是人工识别哪里是正文。
如果是自动化的做,你的主要问题 还是拷贝网页的那个部分。
之前我们真的某些垂直网站,确实是用浏览器来解析页面,并爬取下来的。
如果你要抓取很多网页,那么用浏览器的速度太慢。
如果你一天下周1000万个web page,那么拷贝粘贴就更不行了。
[解决办法]
这的确是一个思路,正文提取算法里有一种叫“基于视觉效果”的提取算法,就是按照这个思路来做的。
Google有这样的实现,不过我们都看不到。
如果不追求正文提取,会更简单些。因为不懂浏览器内核,如果我来做可能会用按键精灵来做:

chromium-browser http://www.baidu.com
ctrl + a
ctrl + c
//打开一个程序界面 用于保存内容
ctrl + v
//下一个


热点排行