[zz]学习lucene应该多看源代码
最近在为星网将要上线的商城系统开发搜索功能,要求使用lucene和数据库。由于lucene是完全开源的,所以对于学习与使用lucene的人,这么好的源代码资源一定要看并且利用,只有多看源代码,自身的能力才会提高,lucene使用起来,效率也会更高。
从一个小例子中,可以看出看源代码的好处。
商品搜索时,肯定要使用核心包下的org.apache.lucene.search.Searcher类,而这个类的search()方法有八个,其中有三个是abstract类型,被searcher的子类IndexSearcher所实现,如果只看javadoc的话,可以看到这八个方法分别是:
Java代码
public TopFieldDocs search(Query query,
Filter filter,
int n,
Sort sort)
throws IOException
public void search(Query query,
Collector results)
throws IOException
public void search(Query query,
Filter filter,
Collector results)
throws IOException
public TopDocs search(Query query,
Filter filter,
int n)
throws IOException
public TopDocs search(Query query,
int n)
throws IOException
public abstract void search(Weight weight,
Filter filter,
Collector results)
throws IOException
public abstract TopDocs search(Weight weight,
Filter filter,
int n)
throws IOException
public abstract Document doc(int i)
throws CorruptIndexException,
IOException
其中query是搜索项,filter是过滤条件,n说明要返回前n个搜索到的结果,sort是搜索结果的排序方式,Collector也是用来指定返回结果中执行排序与过滤信息的。
在javadoc中,还可以看到这八种方法的一些粗略介绍,大概告诉你这些方法是怎么用的。
现在如果已经给定你一个query,而在前台搜索界面是这样的:给了价格区间选项,用户可以指定价格区间,也就是填入两个价格去过滤搜索结果,此时应该使用filter构造过滤条件,当然用户也可以不指定价格区间,也就是不用过滤搜索结果到某一特定的价格区间,此时,看到javadoc中上面几种search方法,你可能会这样想:在后台的控制逻辑里面,也就是action与service(impl)中,去判断一下用户到底有没有输入价格信息,如果输入了,则调用上面第1种或第4种方法(第三种方法虽然也包含filter条件,但是返回类型为void,肯定不行),而如果用户没有输入价格过滤信息,就使用第5种方法。
按照上面的逻辑你会写出下面这样的代码:
Java代码
IndexSearcher searcher =new IndexSearcher(FSDirectory.open(new File(INDEX_PATH)));
if(min != null && max != null) {
Filter filter = new TermRangeFilter("price",NumberUtils.pad(MIN), NumberUtils.pad(MAX), true, true);
TopDocs td = searcher.search(query, filter, TOP_NUM);
}
else {
TopDocs td = searcher.search(query, TOP_NUM);
}
上面代码中,由于IndexSearcher是Searcher的子类,所以IndexSearcher继承了Searcher的五种search方法,实现了Searcher的三种抽象方法。
而如果你的query也需要判断构造的话,那么在构造query时,每有一个判断分支,上面的代码就要写进去一次,十分麻烦。
但是如果你看过Searcher以及IndexSearcher的源代码,情况就不同了,你可以看到上面提到的search方法的源代码如下:
Java代码
public TopFieldDocs search(Query query, Filter filter, int n, Sort sort) throws IOException {
return search(createWeight(query), filter, n, sort);
}
public void search(Query query, Collector results)
throws IOException {
search(createWeight(query), null, results);
}
public void search(Query query, Filter filter, Collector results)
throws IOException {
search(createWeight(query), filter, results);
}
public TopDocs search(Query query, Filter filter, int n)
throws IOException {
return search(createWeight(query), filter, n);
}
public TopDocs search(Query query, int n)
throws IOException {
return search(query, null, n);
}
还可以看到子类IndexSearcher实现的三种抽象方法的实现.
或许从上面代码中你已经看出了玄机,那就是上面五种search方法实际上调用的只有一两个核心的search方法而已,而且Searcher中五个方法在IndexSearcher中有三个都被重写(override)了。
而且你可以看到其实那两个核心的search方法,也就是被其他search方法多次调用的,构造中都包含filter条件,只不过有的是null而已,所以我们的搜索代码完全没必要根据价格过滤信息的有无来分别写流程,因为如果有价格过滤信息的话,filter就是你构造的价格过滤条件,如果用户没有输入价格过滤信息的话,filter只需为null即可。
所以我们的代码可以修改为:
Java代码
Filter filter = null;
if(min != null && max != null)
filter = new TermRangeFilter("price",NumberUtils.pad(MIN), NumberUtils.pad(MAX), true, true);
然后这个filter就是通用的了。
我们的例子中调用IndexSearcher的search并不是IndexSearcher中的方法,因为我们的条件都包含Query,而IndexSearcher的search方法中都没有包含Query条件,而是Weight条件,而此Weight都是在Searcher的search方法中进一步调用其他类型的search方法,而此时调用的search方法已经是IndexSearcher中的search方法了,这里面的逻辑需要搞清楚。