例:如果一个用户访问浏览一个电商平台,注册时没有填写性别,平台如何通过用户产生的访问浏览行为,来计算出用户的性别?
用户浏览了连衣裙,并不能说明用户就是女性。因此,要能够更加准确的向用户推荐个性化商品,就必须通过数据特征提取,函数算法来计算出用户的性别。
用户行为数据采集后,需要存储在数据仓库,对采集的原始数据进行ETL加工处理,首先需要处理掉存储的无效重复数据,对于用户行为没有影响或重复数据,对非结构化数据和半结构化数据进行结构化处理,并对数据进行补缺、替换、数据合并、数据拆分、数据加载和异常处理(这个环节更多是技术程序处理)。
对于加工处理后的用户行为数据,利用开源的机器学习分类器包,调用封装好的各种数据函数,神经网络、支持向量机、贝叶斯等对数据进行聚类、分类和预测,根据第一步设计的用户画像标签体系,对访问平台的用户计算行为特征值,用户特征提取并不是针对所有的标签维度,对于优先关键标签,如果从用户数据库查询不到特征值,就需要调用R函数对其进行计算,最终得出每个标签维度的特征值,依据特征属性值,就可以对用户进行画像处理。
总结一句话:信息采集之后进数据仓库,去重、过滤无用数据,大数据服务器通过自学习将数据聚合、分类、非结构化的信息进行语意理解输出结构化数据,预先设定判断规则【多维的矩阵规则】和权重,根据规则给用户打上标签,最后进行个性化推荐;
版权声明:本文为u013059555原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。