关于航班数据采集的更新问题
最近接手的航班查询项目,在论坛网友的帮助下,数据采集部分基本完成,只剩一些效率优化了
由于航班价格并不是稳定的,所以在2月13号查询广州到北京在2月28号的航班数据跟在2月25号查询同样的信息时可能在价格上有变化,对此我们需要对之前采集到的数据进行更新,但是如果用重新采集的方法进行更新,将会使得之前采集的工作失去意义而且这个方法的效率又是很低的,所以在这里想问一下有做过一些机票搜索项目的大大,因为这些实时性的数据,在更新上还是比较重要的,所以想问一下这种更新问题怎样做比较好(可以用携程做例子)
自己也上网查过一些方法,如检测页面的<meta>里的modified date,不过不是所有的页面都会有这个信息的
对页面使用MD5压缩算法,以后访问时先检测MD5是否相等,之后再进行更新,但是考虑到有可能广告不同或其他因素导致页面的改变,所以希望各位不惜赐教,可以讲讲思路什么的
好吧其实这个问题跟java关系不算很大,但这个项目是用java做的,所以应该能在这里提问吧
[解决办法]
我是用java进行抓取的。 我遇到的是我抓取页面。但是有用的值在动态的js中。我会来的数据没有我想要的。如何能获得js中的数据呢?
[解决办法]