淘宝京东类电商评论标签化的思路
最近发现京东的评论也开始标签化了,虽然相对于淘宝的标签显得比较生硬,但是也可以看出标签化是评论的一个趋势,我个人比较喜欢看评论说话,作为一个IT工作者,曾经思考了下评论的标签化工作可能涉及的技术,正好微博有人问起,现在简单的整理如下。
评论标签化的作用
评论的标签化的作用首先体现在用户体验好了,相对于看评论,标签可读性更好,更加明了,用户一眼便能看出好坏,当然电商是不会把坏的结果给显示出来的;其次,标签化对电商来说也是一种更深入理解用户的需求的方法,因为标签化涉及到评论的数据分析,而评论是用户的感情,看法等多种要素混合在一起,通过评论可以将用户看的更加清楚。
评论标签化的技术
这里从原始评论到评论的标签化来简单说一下。京东摘录的几条评论如下:{确实可以,符合这个价格;很好很不错 性价比高;外观洋气,质量不错,发货很快,值得拥有(感觉这个像机器人发的)。相信品牌的力量,满意}它们的标签分别是{“性价比高”;“配置不错”;速度快
看电影不错
外观漂亮
性价比高}
1.分词
首先是将评论进行分词,将每条评论分成词的集合,这里分词跟常用的分词器在词典上有较大的不同,这里的词典较多的是电商根据自己应用独有的,因为分词的好坏涉及到后续处理效果的好坏,所以第一步也是很重要的。在分词过程中可以对去除一些无用的词,或者将噪声太多的评论丢掉。
这里假设分词后的结果为:确实/可以/符合/价格/;很好/很不错/性价比高;外观洋气/质量不错/发货很快/值得拥有,这里分词只是举例,不一定准确。
2.聚类
这里的聚类涉及到两种,一种是词的聚类,另一种是评论的聚类。一般电商词典大小可能上千万维,常见的聚类算法效果不会好,具有降维效果的聚类算法应用较多,比如LDA,LFM,PLSA等,这类的算法是首先构造文档-词的矩阵,然后对矩阵进行分解,分解成两个低维的带有隐语义的矩阵,即文档-主题矩阵和词-主题矩阵,因为分解后的矩阵维度较低,可以对词和文档进行聚类找到给定主题下语义相关的词集合和文档集合。通常根据每篇文档出现哪些主题,哪些主题出现次数最多就选择出来作为展示结果,通常采用隐语义模型时,主题是不可描述的,可以统计该主题下哪些词出现频率最高作为该主题的描述,但是这些词一般可能较为书面化,需要转化为展示的标签。
比如矩阵分解完成之后:可以/很好/很不错属于一类,价格/性价比高属于另一类,简单点就可以将很好、性价比高等作为标签展示,
算法需要考虑的地方:就拿PLSA来说,评论一般比较短,意味这文档-词矩阵非常稀疏,一般会有亿级*亿级的大小,需要大规模的并行化运算,PLSA并行化主要是EM算法的并行化,原理比较简单,但是工作会很复杂,这和集群大小和并行策略有关。
3.评论的标签化
经过聚类之后,可以得到给定主题下语义相关的词的集合,可以将该主题下出现频率最高的词作为标签展示,但是一般电商会有专门的标签库,这里涉及到一个索引的过程,比如可以/很好/很不错这一类,可以将这一类标记为质量不错,当评论属于这一类的时候,可以根据这一类的词查找到这个要展示的标签,通常电商的标签库很大,应该有个自动发现的过程,不然靠人的工作效率太地下了。
4.其它补充
通过以上三个步骤,基本上能对评论打标签了,个人感觉,实现像淘宝一样的服务,需要很多牛人一起努力的,毕竟从算法到线上服务实在太多坑了。除了上面提到一些方法,还会涉及情感分析,分类等,考虑到评论在某些类别下具有相似性,可以分块进行聚类以降低复杂度等。
以上就简单的谈这么多,虽然有些研究,但是属于纸上谈兵,并没有运用到实际系统中,如果有机会,可能会尝试用在我们的评论系统中去。微博上有人发出了在知乎的讨论方案,淘宝的评论归纳是如何做的 ,有兴趣可以去那里看一下,有些细节和思路跟本文不太一样,同学习了。