01 数据采集层 流量分发第一步规范采集海量数据

《易经》:“初九:潜龙勿用”。潜龙的意思是隐藏,阳气潜藏,阳爻位于最下方称为“初九”,龙潜于渊,是学而未成的阶段,此时需要打好基础。

而模块一我们就是讲解推荐系统有关的概念、基础数据体系搭建、埋点上报、用户和物品画像、标签挖掘、AB 测试系统等各基础知识,助你快速了解互联网业务场景及推荐系统的作用。

这一讲作为模块一的第一讲,有必要先来了解一下个性化流量分发体系的整个搭建流程。

在课程开始之前,我们先看一个例子:

在日常生活中,打开 58 同城网站时,我们可能会遇到以下情形:

  • 和好友同时打开 App,发现我俩的首页金刚区本地服务的图标和文字不一样?

  • 搜索“小区搬家”,发现首页搜索框里的推荐词也发生了变化。

58 同城怎么知道我需要什么样的本地服务?为什么搜索框里的推荐词也发生了变化?这就涉及这一讲要讲的内容——个性化流量分发体系。

以平台是否掌控整体流量分配情况为依据,我们把个性化流量分发体系的模式分为中心化模式和去中心化模式。为了方便你理解,我们再拿 58 同城举例(主要看下中心化模式)。我们知道 58 同城 App 首页有搜索框、分类宫格式导航、部落信息轮播、头条栏目、猜你喜欢推荐等业务模块,流量就是通过这样的设计模式从首页中心化分配到其他各个业务模块。

相信你对个性化流量分发体系已经有了初步了解,接下来我们继续揭开它的真面目。

个性化流量分发体系

那到底什么是个性化流量分发体系呢?个性化流量分发体系是通过、策略手段来平衡用户体验和商业目标。在这个过程中,我们需要把用户的访问流量合理分配到各个流量利用区,促进流量利用最大化,或者说获得流量最大限度转化,最终提升流量价值,从而达到战略意图。因此,个性化流量分发体系的本质就是对整个产品的用户行为路径进行优化。

在个性化流量分发体系搭建过程中,数据是非常重要的资产,也是驱动决策的燃料。这里提及的数据,主要指的是基本信息、显式反馈、隐式反馈这三种。

  • 基本信息:主要指用户的性别/年龄/地区、物品的分类/款式/重量等。

  • 显式反馈:一般指用户对物品的真实评分,这类数据的特点是用户操作成本高,数据量小,更真实。

  • 隐式反馈:一般指除直接评分以外的若干用户行为数据,包括点击、加购、收藏、购买、浏览时长等,这类数据特点是用户操作成本低、数据量大、具有一定的不真实性。用户行为数据还可以进一步通过聚合、梳理形成用户的行为表现数据(如活跃度、回访、复购情况等)。

而个性化流量分发的过程,其实就是先对基本数据和反馈数据进行加工,再利用加工结果进行决策的过程。在数据流转的过程中,个性化流量分发体系被划分为数据采集层、数据加工层、数据决策层、效用评价层这 4 层。

个性化流量分发体系架构

从上图可知,在数据采集阶段,我们的主要工作是全面了解产品和用户。在数据加工阶段,我们的主要工作是对用户和物品分门别类。在数据决策阶段,我们的主要工作是驱动分发方案和产品优化,这也是搜索和推荐等产品的工程和算法能力输出阶段。在效用评价阶段,我们的主要工作是评估流量分发的效果并形成数据反馈。

接下来我们着重讲解在数据采集阶段,我们都需要做哪些工作?

特殊说明:数据加工阶段的内容我们将在 02 讲和 03 讲中着重讲解,效用评价阶段的内容在 04 讲中着重说明,而数据决策阶段因为是推荐系统的核心,也是本专栏的重中之重,所以会放在模块二、三、四、五中进行深度说明。

数据采集阶段

《道德经》中说“九层之台,起于累土”,数据采集阶段作为后面三个阶段的基础,虽然它不涉及复杂算法,但这个阶段的工作内容相对细碎且容易出错,因此我们有必要从细微处着手,先把地基打牢。

在实际业务中,如果我们拥有海量数据,但是采集的数据质量很差,那么此时就算使用再好的算法也是“巧妇难为无米之炊”,并会使得后面三个阶段徒劳无功。由此可见,数据采集阶段的意义重大。

在数据采集阶段,它的最大价值是规范、高效、准确地获取海量数据,以此保证数据的准确性,防止数据出现偏差。

下面,我们通过一张图了解整个数据采集流程,以及在这个阶段我们需要做哪些工作。

数据采集流程

从图中可知,数据采集流程包括数据需求梳理、埋点规范制定、埋点实施、数据上报、生成数据表、数据验收等流程。而在数据采集之前,我们的首要工作是数据需求梳理、埋点规范构建、埋点位置梳理。

(1)数据需求梳理

在真实业务中,数据需求的来源一般都比较广,除推荐系统的需求外,还包括营销、画像、广告、标签等需求。

面对诸多需求时,我们不仅需要构建灵活的数据埋点上报规范,还要满足业务的现有需求,更重要的是要为将来可能出现的需求留出扩展空间。这就要求我们将条理化的业务指标体系(即数据需求)梳理成具体实施需求,而解决该问题的关键在于下面三个步骤。

步骤一:确认事件与变量

事件指的是我们需要分析的数据来源,最终它是一个结果性指标,比如支付成功。而变量指的是事件的维度或属性,比如用户性别、商品的种类。

这里我们可以将事件视为产品中的操作,例如加入购物车、支付成功,然后将变量视为描述事件的属性,比如不同商品的加购次数中,商品名称就是变量。

特殊说明:如果从不同的角度定位一个问题,事件和变量都会发生改变,这就要求我们基于数据需求,找到事件与变量之间搭配的最优解。

步骤二:明确事件的触发时机

在这个过程中,我们需要思考什么时候才是记录事件的合理时机,因为不同的时机其分享成功率也不一样,同时不同的触发时机将带来不同的数据口径。例如分享成功事件面临用户点击微信发生分享动作、用户分享后跳转到相应页面这 2 个时机。因此,数据使用者需要明确事件的触发时机。

时机的选择没有对错之分,我们根据具体的业务需求来制定即可。

步骤三:明确实施优先级

在实际业务中,业务部门必须基于业务指标明确实施埋点的优先级,因为开发部门不可能一次性完成大量事件的埋点。比如电商业务中,我们应该优先实施购买流程这个关键事件,与此冲突的其他事件都应该往后排序。

而且在实际业务中,我们往往需要考虑技术实现成本。如果技术实现成本不一致,我们应该优先落实能够最快落地的,以确保技术的准确性,比如有的埋点需要跨越多个接口;而如果技术实现成本相同则应该优先实施业务数据价值更高的。

(2)埋点规范制定

举个例子:某工程师给双十一活动页面命名时,采用的是拼音与英文相结合的方式,而这种不规范的埋点会让实施人员产生混淆,最终出现错误埋点。埋点规范的价值就在于帮助我们快速理解业务需求,并高效落地埋点方案。

在埋点规范制定过程中,我们通常需要遵循以下三点原则:

  • 上报内容格式清晰、简单,目标易于统计和使用;

  • 各端各推荐位置上报的请求曝光内容、可见曝光内容、点击内容、自动播放格式统一;

  • 所有推荐的内容类型编号,业务需要进行统一编排和维表维护,从请求曝光——>可见曝光——>点击——>落地页这四个阶段均需要保持一致。

(3)埋点实施

埋点规范是埋点实施的前置约束,在埋点实施时,我们需要严格按照埋点规范实施埋点,其中,需要注意三个要点。

  • 明确事件上报的条件:比如请求曝光时,我们在埋点规范中明确注明请求成功后立即上报还是在曝光页面停留超过一定时长后再上报等问题。

  • 明确字段参数的数据源:通常埋点同学对数据敏感度差,为了防止数据取错,就要求我们与埋点同学一起明确每个参数的正确取数位置。

  • 数据采集流程:数据上报后,为方便数据仓库同学高效、便捷地处理日志,我们需要明确每种数据的格式,因为非标准的格式会耗费大量的时间和精力处理格式。

(4)数据上报

埋点完备且上报的数据经过数据仓库处理后就可以直接被应用了。

(5)数据统计

数据统计是非常重要、非常基础的数据应用,例如推荐系统的转化率指标( CTR),它是通过点击数/可见曝光数来计算的。在这个公式中,我们发现如果没有点击事件和可见曝光事件的数据埋点,就不可能产生 CTR 这个数据,推荐系统的效果也就很难量化评估。

(6)埋点验收

在埋点验收阶段,我们需要验收所有推荐位 置、每个位置下的所有参数、每个参数的数据格式。除此之外,我们还需要将不同数据进行连接,把不同系统的数据以报表的形式展现,并对数据的有效性和准确性进行验证。

最后,我们总结一下数据采集的整个流程:首先,我们需要对收集哪些数据进行需求梳理,并建立埋点规范;其次,依据埋点规范实施数据埋点;然后,接收实际上报的数据,并落入数据仓库;紧接着,在数据仓库中生成满足业务需求的数据表;最后,对数据埋点进行验收。

本节总结

学到这里,你已经了解了流量分发的四个阶段和数据采集阶段的完整流程啦,棒棒哒~

《道德经》中说“重为轻根,静为躁君。是以圣人终日行不离辎重。”在流量分发体系中,数据就是这个系统的辎重,而数据驱动思维方式是每个推荐算法工程师必备的思维方式。

根据这种思维方式,我们可以快速获取产品改进的分析流程:首先,确定个人分析目标,从数据规模、数据分布等角度介入发现问题;其次,确定需要分析的数据,将数据细化到数据分析指标,预估数据的有效阈值;然后,寻找并获取评估数据的渠道,得到自己想要的原始数据;接着,对数据进行合理加工和分析,得出分析结论;最后,对得到的结果进行合理分析,指导推荐迭代。

这里插播一道思考题:你还知道哪些流量分发手段呢?欢迎你在留言区进行互动、交流,分享你的个人看法。

另外,如果你觉得本专栏有价值,欢迎分享给更多好友~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/768542.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

2024年7月2日 (周二) 叶子游戏新闻

老板键工具来唤去: 它可以为常用程序自定义快捷键,实现一键唤起、一键隐藏的 Windows 工具,并且支持窗口动态绑定快捷键(无需设置自动实现)。 卸载工具 HiBitUninstaller: Windows上的软件卸载工具 经典名作30周年新篇《恐怖惊魂夜…

VirtualBox Ubuntu Sever配置双网卡

Ubuntu 版本:Ubuntu Server 2404 vitrualBox 网卡配置: 如上配置后,ifconfig 只能看到 网卡1 应用了。要应用 网卡2 需要更改文件 /etc/netplan/50-cloud-init.yaml(不同的ubuntu版本这个文件名可能不同) 首先 ifcon…

《昇思25天学习打卡营第7天|函数式自动微分》

文章目录 今日所学:一、函数与计算图二、微分函数与梯度计算三、Stop Gradient四、Auxiliary data五、神经网络梯度计算总结 今日所学: 今天我学习了神经网络训练的核心原理,主要是反向传播算法。这个过程包括将模型预测值(logit…

PyCharm远程开发配置(2024以下版本)

目录 PyCharm远程开发配置 1、清理远程环境 1.1 点击Setting 1.2 进入Interpreter 1.3 删除远程环境 1.4 删除SSH 2、连接远程环境 2.1 点击Close Project 2.2 点击New Project 2.3 项目路径设置 2.4 SSH配置 2.5 选择python3解释器在远程环境的位置 2.6 配置远程…

EXCEL返回未使用数组元素(未使用值)

功能简介: 在我们工作中,需要在EXCEL表列出哪些元素(物品或订单)已经被使用了(或使用了多少次),哪些没有被使用。 当数量过于庞大时人工筛选或许不是好办法,我们可以借助公式&…

鸿蒙数据防泄漏(DLP)【Data Loss Prevention Kit简介】

Data Loss Prevention Kit简介 Data Loss Prevention Kit(数据防泄漏服务,简称为DLP),是系统提供的系统级的数据防泄漏解决方案,提供文件权限管理、加密存储、授权访问等能力,数据所有者可以基于帐号认证对…

Python基础小知识问答系列-可迭代型变量赋值

1. 问题: 怎样简洁的把列表中的元素赋值给单个变量? 当需要列表中指定几个值时,剩余的变量都收集在一起,该怎么进行变量赋值? 当只需要列表中指定某几个值,其他值都忽略时,该怎么…

【数据分享】《中国金融年鉴》1986-2020年PDF版

而今天要免费分享的数据就是1986-2020年间出版的《中国金融年鉴》并以多格式提供免费下载。(无需分享朋友圈即可获取) 数据介绍 《中国金融年鉴》自1986年起,逐年记录着中国金融领域的发展历程、政策变化和市场动态。这部年鉴不仅是金融专业…

PD虚拟机和VirtualBox有什么区别?Parallels Desktop 19.1.1 破解版

随着计算机技术的不断发展,虚拟机软件在现代信息技术领域中扮演着越来越重要的角色。虚拟机不仅可以帮助用户在一台物理机器上运行多个操作系统,还能有效隔离不同环境,提升系统安全性。在众多的虚拟机软件中,PD虚拟机(…

Halcon 基于分水岭的目标分割

一 分水岭 1 分水岭介绍 传统的分水岭分割方法,是一种基于拓扑理论的数学形态学的分割方法,其基本思想是把图像看作是地质学上的拓扑地貌,图像中每一像素的灰度值表示该点的海拔高度,每一个局部极小值及其周边区域称为集水盆地&…

Redis理解【精细】【快速上手】

目录 1. 了解3V和3高 2.什么是redis 3. redis可以做什么 4. Windows安装 5. 使用redis客户端操作redis 5.1 redis基本命令 5.1.1 切换数据库 5.1.2 查看当前数据库的大小 5.1.3 查看当前数据库所有的key ​​​​​​​ 5.1.4 清空当前数据库所有key 5.1.5 清空所…

操作系统真象还原:编写硬盘驱动程序

第13章-编写硬盘驱动程序 这是一个网站有所有小节的代码实现,同时也包含了Bochs等文件 13.1 硬盘及分区表 13.1.1 创建从盘及获取安装的磁盘数 要实现文件系统,必须先有个磁盘介质,虽然咱们己经有个虚拟磁盘 hd60M.img,但它只…

党建科普3D数字化展馆支持实时更新迭代

3D虚拟策展逐渐成为新时代下的主流方式,深圳华锐视点作为专业的web3d开发公司,具有专业化的3D数字化空间还原能力,能根据企业/个人不同需求和预算,为您打造纯线上虚拟3D艺术展,让您彻底摆脱实体美术馆的限制&#xff0…

好看的风景视频素材在哪下载啊?下载风景视频素材网站分享

随着短视频和自媒体的兴起,美丽的风景视频不仅能让人眼前一亮,更能吸引大量观众。无论是旅游博主分享那些令人心旷神怡的旅行片段,还是视频编辑师寻找背景素材来增强作品的视觉效果,高质量的风景视频素材需求量巨大。以下是几个下…

2024年上半年典型网络攻击事件汇总

文章目录 前言一、Ivanti VPN 的0 Day攻击(2024年1月)二、微软公司高管账户泄露攻击(2024年1月)三、Change Healthcare网络攻击(2024年2月)四、ConnectWise ScreenConnect漏洞利用攻击(2024年2月)五、XZ Utils软件供应链攻击(2024年3月)六、AT&T数据泄露攻击(20…

Continual Test-Time Domain Adaptation--论文笔记

论文笔记 资料 1.代码地址 https://github.com/qinenergy/cotta 2.论文地址 https://arxiv.org/abs/2203.13591 3.数据集地址 论文摘要的翻译 TTA的目的是在不使用任何源数据的情况下,将源预先训练的模型适应到目标域。现有的工作主要考虑目标域是静态的情况…

【数据分享】《中国建筑业统计年鉴》2005-2022 PDF

而今天要免费分享的数据就是2005-2022年间出版的《中国建筑业统计年鉴》并以多格式提供免费下载。(无需分享朋友圈即可获取) 需要2023的数据的请添加小编咨询 数据介绍 在过去的十八个年头中,中国建筑业经历了翻天覆地的变化。从《中国建…

web自动化(三)鼠标操作键盘

selenuim 键盘操作 import timefrom selenium.webdriver.common.keys import Keys from selenium.webdriver.common.by import By from selenium.webdriver.support import expected_conditions as EC from selenium.webdriver.support.wait import WebDriverWait from selen…

windows@无密码的本地用户账户相关问题@仅用用户名免密登录远程桌面登录和控制@无密码用户访问共享文件夹以及挂载问题

文章目录 abstract此用户无法登录账户被禁用问题访问共享文件夹时带上凭据错误案例和解决 两类登录方式控制台登录与远程登录的区别为什么限制空密码账户只允许控制台登录相关安全策略如何修改该策略注意事项 启用允许被免密登录功能使用空密码进行远程桌面连接设置远程桌面链接…

day02-广播机制

广播机制 广播是numpy对不同形状的数组进行数值计算的方式,对数组的算术运算通常在相应的元素上进行 1.如果两个数组a和b形状相同,即满足a.shape b.shape,那么a*b的结果就是a与b数组对应位相乘。这要求维数相同且各维度的长度相同 a np.a…