网页本文提取办法

2013-12-05

网页正文提取办法最初理解的网页正文提取，本以为是针对某个特定的网站实现信息筛选的代码。范围太小了，怎么

网页正文提取办法
最初理解的网页正文提取，本以为是针对某个特定的网站实现信息筛选的代码。范围太小了，怎么是实现随便给个网址，用一个通用的算法，提取出网页内的有用信息。网上搜到一些概念，基于模板的，基于视觉的等等，感觉都有局限的，如何才能实现更通用的正文提取算法
[解决办法]
网页正文提取办法? 百度 -> 火车头
[解决办法]
现在提取都是还是从返回值里提取吧。

我觉得没有那种真正通用的办法。因为你要提取的内容是一个标准，也就是“需要的”。

需要的这个是一个主观的概念，什么是需要的因人而异。

我觉得但凡有一个主观概念参杂在里面的都没法做到通用化程序的。

你做很多个IF可以看上去通用，但是其实还是一个个特例组成的。
[解决办法]

引用:

Quote: 引用:

网页正文提取办法? 百度 -> 火车头

百度-〉火车头？？什么意思

意思就是说有现成的软件你可以使用
[解决办法]
这里有一个正文提取提取算法可供参考，正确提取率还可以：http://www.qwolf.com/?p=791
[解决办法]
"范围太小了，怎么是实现随便给个网址，用一个通用的算法，提取出网页内的有用信息。"

这句话是一句无法实现的需求,首先何为"有用信息"?

就如一个用户跟你谈需求的时候只说了一句话:"我要一个ERP系统,是一个对于我工厂很有帮助的ERP系统"

然后你就去实做了?

对于这种根本不是需求的需求描述是需要继续拆分的.

======

软件界没有银弹.

就像物理世界没有永动机一样.

一切看需求而去,看实际实现而定.

楼主可以考虑去看看<<人月神话>>

热点排行

asp.net

网页本文提取办法