用浏览器拷贝粘贴不能用以提取网页正文吗

2013-01-06

用浏览器拷贝粘贴不能用来提取网页正文吗？看了很多技术,各有所长,dom,正则等等.关于网页正文提取的一点困

用浏览器拷贝粘贴不能用来提取网页正文吗？
看了很多技术,各有所长,dom,正则等等.关于网页正文提取的一点困惑，高手莫笑。
如果不是提取特定内容，只想获得页面上所有文字，
用浏览器浏览网页的时候我们ctrl+a,ctrl+c,ctrl+v就可以获取全部的文字，
理论上只要我们用现成的控件做个浏览器，是不是就可以完成任务了？
为何没看到这种方法？
速度原因？
[解决办法]
三个问题：

（1）拷贝实际上是识别正文的问题。
（2）spider大量抓取页面，需要考虑解析一个页面的时间。浏览器来渲染毕竟很慢。

"拷贝粘贴",实际上是人工识别哪里是正文。
如果是自动化的做，你的主要问题还是拷贝网页的那个部分。
之前我们真的某些垂直网站，确实是用浏览器来解析页面，并爬取下来的。
如果你要抓取很多网页，那么用浏览器的速度太慢。
如果你一天下周1000万个web page，那么拷贝粘贴就更不行了。
[解决办法]
这的确是一个思路，正文提取算法里有一种叫“基于视觉效果”的提取算法，就是按照这个思路来做的。
Google有这样的实现，不过我们都看不到。
如果不追求正文提取，会更简单些。因为不懂浏览器内核，如果我来做可能会用按键精灵来做：

chromium-browser http://www.baidu.com
ctrl + a
ctrl + c
//打开一个程序界面用于保存内容
ctrl + v
//下一个

热点排行

网络基础

用浏览器拷贝粘贴不能用以提取网页正文吗