网页正文提取办法
最初理解的网页正文提取,本以为是针对某个特定的网站实现信息筛选的代码。范围太小了,怎么是实现随便给个网址,用一个通用的算法,提取出网页内的有用信息。网上搜到一些概念,基于模板的,基于视觉的等等,感觉都有局限的,如何才能实现更通用的正文提取 算法
[解决办法]
网页正文提取办法? 百度 -> 火车头
[解决办法]
现在提取都是还是从返回值里提取吧。
我觉得没有那种真正通用的办法。因为你要提取的内容是一个标准,也就是“需要的”。
需要的这个是一个主观的概念,什么是需要的因人而异。
我觉得但凡有一个主观概念参杂在里面的都没法做到通用化程序的。
你做很多个IF可以看上去通用,但是其实还是一个个特例组成的。
[解决办法]