首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 其他教程 > 互联网 >

替不提供RSS输出的网站烧制RSS

2012-08-15 
为不提供RSS输出的网站烧制RSS原文出处:http://blog.sooinn.com/2009/05/rssrss.html,请自备梯子。这篇文章

为不提供RSS输出的网站烧制RSS
原文出处:http://blog.sooinn.com/2009/05/rssrss.html,请自备梯子。

这篇文章是我偶然在一个网站看到的,觉得是一个非常不错的文章,也许以后用得上,所以就转载到这里了,如果大家都有类似的需求,那么这篇文章也能够帮助你订阅很多很好的RSS源,让我们获取更加完美的阅读体验。

最近在研究如何为不提供RSS地址的页面来烧制一个RSS地址。网上相关的文章也有不少了,如:如何订阅不提供RSS Feed输出的网站?。虽然提供此服务的网站有不少了,但大部分是需要收费的。对于免费用户,可订阅的网页数有限制,最重要的是,提供的RSS对于网站的更新非常慢,通常几个小时才能更新一次,算下来一天也只能更新3到4次,且提供的XML文件大小也有限制。即便是付费用户,1个小时的更新速度和 250K的文件大小也远远满足不了我得要求。

经过一段时间的开发,我终于找到了一种完美的解决方式,那就是利用google app engine。由于现在google提供了后台的定时处理功能,为我们定时抓取想要的网页提供了可能。更为关键的是google的更新频率最快可以设定为一分钟一次!太爽了。
下面给出一个我的开发完成的例子。我订阅的是一个叫做色影无忌的论坛,可能关注影像器材的人都知道这个论坛,这是个相当出色的论坛,内容丰富,质量很好,且更新很快,上面有大量知识阅历丰富的老牛。唯壹壹个遗憾就是它不提供RSS订阅。在我下面的例子里,我提供了对于其中一个无忌交流板块的RSS订阅,版块地址为:

http://forum.xitek.com/forumdisplay.php?forumid=50

我烧制的无忌交流板块RSS地址为:http://weigang-cn.appspot.com/xitekrss/getrss/50

可以支持所有的主流RSS工具和几乎所有的RSS工具,每15分钟抓取一次无忌交流首页,并开启10个进程抓取每个帖子的内容的前300多字,和前10楼的回复。用了GAE的后台服务+数据库取得和保存数据,性能相当好,而且稳定。为什么?google提供的服务质量上还是没得说的,而且我们也不用担心用那些小服务商突然消失的尴尬。看看互联网每天会诞生多少个公司,又有多少个公司消亡。跑了一句题,呵呵。

这个服务虽然好,但是其使用的不太主流的Python编程语言,以及由于每个网页都是格式迥异,不能提供一个很方便的模板,需要有一定的编程基础才能实现。

所以我愿意为大家提供这项服务,即你把想要烧至的RSS告诉我,我为大家编写相应的程序并上传到GAE上运行。不管你是不是懂得编程和使用GAE,只要你在留言里或者给我发一封mail,你的愿望就可以实现了!

由于GAE的免费服务有CPU使用时间,存储数据量限制,网络流量限制等诸多限制,所以我决定收取一定的费用来维持这个服务,暂定20块钱一年吧,这比起专门烧至RSS的网站收费已经很低了,算是维持一个成本吧。而且有最快1分钟的更新速度,相当于即时抓取了。
有需要的朋友,或者有任何想法和建议想和我交流,可以留言和用E-mail联系我:
E-mail:rss@sooinn.com,我会及时回复的。
PS:为了说明俺不是骗子,可以支付宝交易哦,呵呵。

热点排行