MapReduce设计模式:Joins
本节主要讨论了Join的类型,熟悉数据库的同学并不陌生;然后介绍了基于Reducer-Side Join、Mapper-Side Join、Memory-Based Join等设计模式。在实现这种设计模式时,还要根据数据集合的关系one-to-one、one-to-many、many-to-many等关系来选择合适的方法。在Join过程中,由于Cross Join和Cartesion Join的存在,使得数据处理时必须保存某个数据集合在内存中,这样就存在OOM的风险和瓶颈,在这种情况下,需要仔细选择Join的方法,或者通过预处理,或者通过Distributed Store等方法来解决。总之,对于大数据的处理,我们需要根据数据的特征,选择合适的处理方法;如果有某些特性能够提升我们处理数据的速度和性能,我们绝不能放过这些特性。
?
?
?