Mahout 和 Mahout in Action
?
Mahout 和 Mahout in Action?
?
1 Mahout 简介
网站:http://mahout.apache.org/
?
Mahout 项目是由 Apache Lucene(开源搜索)社区中对机器学习感兴趣的一些成员发起的,他们希望建立一个可靠、文档翔实、可伸缩的项目,在其中实现一些常见的用于集群和分类的机器学习算法。
?
该社区最初基于 Ng et al. 的文章 “Map-Reduce for Machine Learning on Multicore”(见 参考资料),但此后在发展中又并入了更多广泛的机器学习方法。
?
Mahout 的目标还包括:
- 建立一个用户和贡献者社区,使代码不必依赖于特定贡献者的参与或任何特定公司和大学的资金。
- 专注于实际用例,这与高新技术研究及未经验证的技巧相反。
- 提供高质量文章和示例。
?
?
目前Mahout实现的方法算法包括:
Collaborative Filtering 协同过滤
User and Item based recommenders 基于用户和项目的推荐
K-Means, Fuzzy K-Means clustering K均值、模糊K均值聚类
Mean Shift clustering 均值漂移聚类
Dirichlet process clustering Dirichlet过程聚类
Latent Dirichlet Allocation?潜在 Dirichlet分配
Singular value decomposition?奇异值分解?
Parallel Frequent Pattern mining 并行频繁模式挖掘
Complementary Naive Bayes classifier 补充朴素贝叶斯分类器
Random forest decision tree based classifier 随机森林基于决策树的分类器
High performance java collections (previously colt collections) 高性能java集合(以前的colt集合)
?
?
?
更多介绍可以参考IBM DW上的系列文章: http://www.ibm.com/developerworks/cn/java/j-mahout/?
?
2 Mahout in Action?
?
- 此书2009年就开始写作,目前全书原文都已完成,但还未正式出版貌似?只有MEAP ,详见 http://www.manning.com/owen/?
?
- 此书以推荐引擎为基础,重点讲述聚类和分类算法
?
- 全书目录
?
1. Meet Apache Mahout?
?
Part 1 Recommendations
2. Introducing recommenders
3. Representing data?
4. Making recommendations
5. Taking recommenders to production
6. Distributing recommendation computations
?
Part 2 Clustering
7. Introduction to clustering
8. Representing data
9. Clustering algorithms in Mahout
10. Evaluating clustering quality
11. Taking clustering to production
12. Real-world applications of clustering
?
Part 3 Classification
13. Introduction to classification
14. Training a classifier
15. Evaluating and tuning a classifier
16. Deploying a classifier
17. Case study: Shop it To Me
?
Appendices
A. JVM tuning
B. Mahout math
C. Resources
?
- 有一个哥们正在翻译成中文,目前正在第3章 : ? http://running.iteye.com/category/144665 ?
?
?
3 相关话题
- Hadoop , Lucene?
- 推荐引擎?
- 多元统计方法?
- 数据挖掘?