用户需求
用户画像是用户属性的集合,常用社会属性(如性别、年龄、职业)和兴趣爱好(如吃货、球迷、文青),一般用于精细化运营和精准营销。例如:张三,男,20-30岁,码农,宅男,皇马球迷。
客户的需求是将收集到的用户行为数据建立成一个标签系统,以用于广告推荐。
需要解决的问题
- 技术层面:数据量大(千万级别用户多维度的原始数据),标签多样化(几百个标签的构造策略或算法需要根据使用场景、准确度要求和所能获取的数据进行定制化),处理流程复杂(从原始数据采集到清洗、转化、特征构造再到生成标签需要经过多个环节),对整个画像系统的稳定性和鲁棒性要求非常高。
- 业务层面:系统需满足程序化广告和营销咨询多个业务的需求,标签的准确率和覆盖率的平衡是一个很大的挑战。
解决方案
- 模块化思路
系统架构层面,以模块化的方式完成整套实现流程,减小不同环节的依赖性,便于管理。
业务使用层面,一个标签提供一套组合,使不同业务场景有更大的选择空间。 - 使用统计学、机器学习多种算法或组合策略来构造标签,规则策略因标签而异,确保每个或每类标签算法在可获取的数据和可接受成本成本范围内能达到最优策略。
技术栈和工具
HBase, Hadoop, Spark, Java, Python, Hive, MySQL, Azkaban
产品效果
- 覆盖率:覆盖千万级别用户。
- 准确率:经过多方验证,准确率处于行业领先水平。
- 丰富度:上千个标签,覆盖母婴、教育、旅游、电商等热门营销领域。