我承认我是一个正则文盲= = 求解释
正则表达式 这东西除了验证一些简单的 例如账号 密码 邮箱这些的时候用到过 我就对它很不感冒了.
我现在想做一个抓取网页内容分析的程序.
我倒是看过人家的一些源码。
我想问的是 他们以及你们是如何看到一个网页结构后 怎么知道用什么正则去过滤之类的?
这个思路如何走的?求解释
[解决办法]
[解决办法]
抓取网页内容分析的程序? 简单的 取 标题 内容 作者 ? 还是高端的分析页面内容属于什么类型的?
[解决办法]
这个嘛
要用正则提取信息的话,一个网页结构还是的有一些规律可循,比如那个标签之间或者字符之间(属性),至于如何提取,那还真的去学正则,我自己也是新手。拙见,坐等高手解释
[解决办法]
1.正则是来匹配网页内容的
2.问题的关键在于你想得到什么
3.然后根据原文和最终结果去写符合要求的正则
4.如果所有的网页内容结构不一致,是无法利用通用正则的,只能具体情况具体分析