网络舆情信息分析系统——(1)
学院实验室找老师,跟着老师做的项目。
四个大四,六个大三,分成三个组开始做的一个java项目。
先从网络上抓取数据,然后聚类分析,然后感情分析,得出最终结果。
我在的一组是做网络爬虫,将数据抓取下来供后面两个小组使用。一直都是在学java,所以做这个反而比做之前那个要顺手要舒服。
刚开始的时候,拿到手的,就是一个半成品。但是很多缺陷,比如暂时只能抓搜狐的,比如评论抓取有问题,存储慢,抓取慢,等等。
经过一个月边上课边做,还有好多别的事情。目前做到了:可以准确完整的抓取到搜狐上想要的新闻和评论,存储到文件系统中。现在第一紧要缺陷就是慢,很慢,这个问题正在解决,java并发多线程,应该可以极大提高资源利用率,提高效率。如果有哪位大哥大姐有建议或者方法也请指教。其次要解决的问题就是,如何自动适应不同门户网站,现在只能抓取搜狐的网页内容。
继续做,有空再写。希望大哥大姐们能有所指导,谢谢~