大侠们,看看这样的搜索引擎思路可行么?
RT
1. 想抽取word文档的元数据及内容等,用tm-extractors.jar包可以抽取内容,但是我要根据文本的类型,抽取出有用的知识点(如:文章摘要、作者等),有点像数据挖掘了,该用到什么好点的技术。
2.根据抽取出来的知识点,建立知识点间的关联,用本体构建关系
3.用luncene和IKAnalyzer分词器来达到推理搜索
现在感觉第一步,如何有效抽取知识有点难度,并且要把文档作为一个实例匹配到本体中达到推理搜索.
[解决办法]
廣度優先算法
[解决办法]
.根据抽取出来的知识点,建立知识点间的关联,用本体构建关系
索引
根据文本的类型。。。。找到有用的词。
你要有一个数据的集合分析。 很多相关的算法。找到一个文件里 信息量最大的词。
[解决办法]
学习
[解决办法]
学习
[解决办法]
我也想知道
[解决办法]
就是数据挖掘