大侠们，见见这样的搜索引擎思路可行么

2012-12-29

大侠们，看看这样的搜索引擎思路可行么？RT1. 想抽取word文档的元数据及内容等，用tm-extractors.jar包可以抽

大侠们，看看这样的搜索引擎思路可行么？
RT
1. 想抽取word文档的元数据及内容等，用tm-extractors.jar包可以抽取内容，但是我要根据文本的类型，抽取出有用的知识点（如：文章摘要、作者等），有点像数据挖掘了，该用到什么好点的技术。

2.根据抽取出来的知识点，建立知识点间的关联，用本体构建关系

3.用luncene和IKAnalyzer分词器来达到推理搜索

现在感觉第一步，如何有效抽取知识有点难度，并且要把文档作为一个实例匹配到本体中达到推理搜索.
[解决办法]
廣度優先算法
[解决办法]
.根据抽取出来的知识点，建立知识点间的关联，用本体构建关系

索引

根据文本的类型。。。。找到有用的词。

你要有一个数据的集合分析。很多相关的算法。找到一个文件里信息量最大的词。
[解决办法]
学习
[解决办法]
学习
[解决办法]
我也想知道
[解决办法]
就是数据挖掘

热点排行

网络基础

大侠们，见见这样的搜索引擎思路可行么