有关新闻源网页更新情况跟踪的程序有关问题

2013-02-27

有关新闻源网页更新情况跟踪的程序问题大家新年好！我要做的事情如下：比如某个部门有一个新闻目录的网页，其

有关新闻源网页更新情况跟踪的程序问题
     大家新年好！我要做的事情如下：

     比如某个部门有一个新闻目录的网页，其对应的网页内容是目录导航型，包含大量指向正文内容型（即“新闻报道”）网页的链接。该目录会定期更新，不断出现一些指向新发布新闻报道的链接。同时，指向过期新闻的链接则被移除。
     我要定期抓取和统计某个单位所有部门的新闻目录网页，并且判断其中每个部门新闻链接数的更新情况，并排序。我的想法是解析这个网页里面新闻的链接，比如http://cese.pku.edu.cn/dispcl2.asp?id=98这里的新闻链接有http://cese.pku.edu.cn/dispart.asp?id=1175这种格式，所以我就在http://cese.pku.edu.cn/dispcl2.asp?id=98的网页里面解析具有http://cese.pku.edu.cn/dispart.asp?id=这种形式的内容有多少个，分别是什么记录然后保存下来。每天进行一次。
     这是我想到的做法，我现在有这么几个问题。
     1.要实现我的目标有没有更好的做法呢？
     2.由于有多个部门的新闻目录情况统计，我应该以文件形式还是数据库中存储每天的链接，然后比较呢？如果是文件是否一天一个目录，然后以单位的名称为文件名存储？
     3.不同部门的新闻目录网页与链接的url格式关系不是很一致是否每一个单位得单独写一段程序呢？
[解决办法]
可以看看有没有RSS
[解决办法]
一般id是自增的，所以http://cese.pku.edu.cn/dispcl2.asp?id=98解析第一篇文章的id，
http://cese.pku.edu.cn/dispart.asp?id=1175
那么截至今天为止，最大文章编号为1175。（1176就报错了。）每天只要比较这个id，另外，最好再用curl解析一下url，看看curl header code返回是否200，（非301，,400...）来验证url是否有效。
[解决办法]
时间可以缩短，按小时来计算。如果有条件，找个服务器来做。可以模仿其他检索系统的存储格式。不需要单独写，封装好接口，用数组一个一个传入。

热点排行

Apache

有关新闻源网页更新情况跟踪的程序有关问题