用MyEclipse在tomcat服务器上配置网络爬虫遇到了困难,希望高手赐教,万分感谢!!!本人新手,分不多,望包涵
我现在参与的一个小项目是建立一个简单的搜索引擎,平台是用MyEclipse,下面是我的一些操作细节,说的麻烦点望各位指正其中的错误。在建立的webproject里面,我把代码用到的jar包全都放在了%项目路径%\WebRoot\WEB-INF\lib底下(这样做可以吗?会影响tomcat吗?),tomcat版本是6.0.18,在MyEclipse里面关联tomcat后,启动tomcat后发现以下问题:
java.io.IOException: Failed to load properties file from filesystem or from classpath.
at org.archive.crawler.Heritrix.getPropertiesInputStream(Heritrix.java:924)
at org.archive.crawler.Heritrix.loadProperties(Heritrix.java:863)
at org.archive.crawler.Heritrix.getJobsdir(Heritrix.java:769)
at org.archive.crawler.Heritrix.<init>(Heritrix.java:405)
at org.archive.crawler.Heritrix.<init>(Heritrix.java:393)
…………
我把jar包重新导入,重新关联tomcat后仍然无法解决,这里是不是爬虫的配置不对?还是少什么jar包?我导入的jar包有:ant-1.6.2.jar,bsh-2.0b4.jar,commons-cli-1.0.jar,commons-codec-1.3.jar,commons-collections-3.1.jar,commons-httpclient-3.1.jar,commons-io-1.3.1.jar,commons-lang-2.3.jar,commons-logging-1.0.4.jar,commons-net-1.4.1.jar,commons-pool-1.3.jar,dnsjava-2.0.3.jar,fastutil-5.0.3-heritrix-subset-1.0.jar,htmlparser.jar,ictclas4j_0.9.1.jar,itext-1.2.0.jar,javaswf-CVS-SNAPSHOT-1.jar,je-3.3.82.jar,je-analysis-1.5.3.jar,jericho-html-2.6.jar,jets3t-0.5.0.jar,jetty-4.2.23.jar,junit-3.8.2.jar,libidn-0.5.9.jar,lucene-analyzers-2.4.1.jar,lucene-core-2.4.1.jar,lucene-demos-2.4.1.jar,lucene-highlighter-2.4.1.jar,lucene-regex-2.4.1.jar,mg4j-1.0.1.jar,msbase.jar,mssqlserver.jar,msutil.jar,PDFBox-0.7.3.jar,poi-scratchpad-2.0-RC1-20031102.jar,ThesaurusAnalyzer.jar
在这个项目里面我主要负责的是文件存储工作,但是老板临时把爬虫的工作给我,真是急的抓耳挠腮啊,望高手指点下,有没有描述清楚的地方,请尽管问。先谢谢啦
[解决办法]
本人觉得不像是jar 的问题 应该是哪里配置写错了吧
[解决办法]