用户行为日志
1、用户行为日志
起点R3电子商务搜索引擎演示系统中记录的用户行为数据主要包括四大类
? 搜索历史
搜索历史的记录主要包括用户信息、时间、地址、检索的关键词,检索关键词拼音及缩写,用户年纪等,其中,记录的时间包括检索发生时的小时、当天是周几、当天的日期信息;地址信息包括了省市区县信息。
? 点击历史
点击历史记录了当前点击记录的用户信息、时间、地址、检索词、点击记录的序号、点击记录的ID,其中,记录的时间包括检索发生时的小时、当天是周几、当天的日期信息;记录了该产品是在搜索结果中点击的还是推荐结果中点击的;地址信息包括了省市区县信息。
? 购买历史
购买历史分类已付款和未付款,并记录的有付款时间和订单时间。统计还记录了用户信息、时间、地址、检索词、点击记录的序号、购买记录的ID,并且统计了在查看了该记录多少次以后购买的,也记录了该产品是在搜索结果中点击的还是推荐结果中点击的,其中,记录的时间包括检索发生时的小时、当天是周几、当天的日期信息;地址信息包括了省市区县信息。
? 浏览数据历史
浏览数据是用户在查看产品信息的浏览记录,一次点击查看的页面会记录多条浏览数据,该记录是采样数据,采集的频率是10秒一次,记录了用户信息、时间、地址、检索词、产品ID、当前鼠标浏览位置、当前页面焦点位置、当前页面滚动次数、距离上一次滚动时间等信息。
2、推荐引擎
起点R3电子商务搜索智能推荐引擎是基于以上历史记录的数据分析与挖掘。主要推荐类型分为四种:
? 直接推荐
直接推荐是最简单的一种推荐方式,比如,根据用户的检索词向推荐用户与该检索词高度相关的产品信息,推荐列表的排序方式可以是按照销售量排序、浏览量或其他方式排序。
? 交叉推荐
交叉推荐是稍复杂一些的一种推荐方式,比如:购买该商品的用户还购买了那些商品、浏览该商品的用户还浏览了那些商品,推荐列表的排序方式可以是按照销售量排序、浏览量或其他方式排序。
? 区域性和时间段推荐
区域性推荐是在以上两种推荐的基础之上扩展的一种推荐,比如,上海地区的购买了该商品的用户还购买了那些商品;上海地区在周六日购买了该商品的用户还购买了那些商品;上海地区的用户在下午5点-8点间购买了该商品的用户还购买了那些商品。
? 商品属性相关推荐
商品属性相关推荐是针对用户购买记录或浏览记录进行分析以后的一种推荐方式,是一种简单计算,比如,对用户购买或浏览记录进行Facet统计以后得出该用户主要注意力在B罩杯的内衣,那么对用户推荐的列表中只包含B罩杯的商品;另一类:比如用户浏览的内衣70%以上都是性感类型的,推荐引擎在对该用户进行推荐的时候,则只推荐性感类型的内衣、内裤。
起点R3还可以根据用户的购买行为来分析用户的社会化属性,比如区分喜好性感类型的用户群和喜好文静型的用户群,并可以针对不同的用户群计算不同的推荐列表用于发送邮件列表。
3、用户访问数据分析
用户访问数据分析主要是对用户操作历史记录的数据进行数据挖掘和分析,主要包括四类:
? 社会化属性
社会化属性分析主要包括分析用户类型、用户的使用偏好、用户的购买习惯、消费习惯、消费能力以及评论或商品的销售数据对用户的影响等数据的分析。
? 区域性分析
区域性分析是对地区数据进行分析,以确定该地区的用户购买习惯、消费能力、消费习惯、以及用户年龄分布等。
? 时间周期特性分析
时间周期分布主要是和以上两类综合统计,比如用于计算周六周日以及特殊节假日的推荐列表等。
? 商品和商品组合分析
该分析主要是统计商品的购买特点,比如,通常用户浏览了多少次以后会购买该商品,那些商品会在短期内(2小时)同时购买,以及商品和地区区域、时间周期的组合分析等。
4、用户行为对搜索结果的影响
用户行为对搜索结果的影响主要体现在排序和推荐列表中,在对搜索结果的排序中,购买量是一个排序参数,可以直接使用商品购买数量对搜索结果排序。此外,可用的排序参数还包括商品购买浏览量、商品点击量、商品浏览时长等指标。用户行为对推荐列表的影响就更为直接了,交叉推荐、区域性和时间段推荐以及商品属性相关推荐都是以用户购买数据和浏览数据为基础进行的。
表 1 用户行为和用户偏好
用户行为类型特征作用
评分显式
整数量化的偏好,可能的取值是 [0, n];n 一般取值为 5 或者是 10通过用户对物品的评分,可以精确的得到用户的偏好
投票显式布尔量化的偏好,取值是 0 或 1通过用户对物品的投票,可以较精确的得到用户的偏好
转发显式布尔量化的偏好,取值是 0 或 1通过用户对物品的投票,可以精确的得到用户的偏好。
如果是站内,同时可以推理得到被转发人的偏好(不精确)
保存书签显示布尔量化的偏好,取值是 0 或 1通过用户对物品的投票,可以精确的得到用户的偏好。
标记标签
(Tag)显示一些单词,需要对单词进行分析,得到偏好通过分析用户的标签,可以得到用户对项目的理解,同时可以分析出用户的情感:喜欢还是讨厌
评论显示一段文字,需要进行文本分析,得到偏好通过分析用户的评论,可以得到用户的情感:喜欢还是讨厌
点击流
( 查看 )隐式一组用户的点击,用户对物品感兴趣,需要进行分析,得到偏好用户的点击一定程度上反映了用户的注意力,所以它也可以从一定程度上反映用户的喜好。
页面停留时间隐式一组时间信息,噪音大,需要进行去噪,分析,得到偏好用户的页面停留时间一定程度上反映了用户的注意力和喜好,但噪音偏大,不好利用。
购买隐式布尔量化的偏好,取值是 0 或 1用户的购买是很明确的说明这个项目它感兴趣。 1 楼 poson 2012-03-12 写的挺全面