让用户痴迷TikTok的AI算法（下）-雨果网

让用户痴迷TikTok的AI算法（下）

Tick Tok 正在席卷全球。据 Sensor Tower 称，这款短视频应用在全球 App Store 和 Google Play 上的下载量已超过20 亿次。这个让你如此痴迷的APP背后的魔力是什么？毫无疑问，答案是 ML 支持的推荐引擎。

让用户痴迷TikTok的AI算法（下）

大家好，我是外贸老司机Allan。Tik Tok入门小白或者对独立站和跨境电商感兴趣的朋友们，欢迎关注我，这里将持续分享更多运营干货哦~

（接上文）

2. TikTok推荐系统设计的原型

2.1 数据和特点

首先，数据。如果我们正式描述推荐模型，它是一个用户对生成内容的满意度的函数。要提供这个功能，需要从三个维度输入数据。

内容数据——TikTok 是一个拥有大量用户生成内容的平台。每种类型的内容都有其特征，系统能够识别和区分它们以获得可靠的推荐。
用户数据——包括兴趣标签、职业、年龄、性别、人口统计等。它还包括来自基于机器学习的客户聚类的潜在特征。
场景数据——该数据根据不同的场景跟踪使用场景和用户的偏好变化。例如，用户在工作、旅行或通勤时喜欢观看什么类型的视频

收集到相关数据后，将导出四种类型的关键工程特征并将其输入推荐引擎。

相关性特征：它们表示内容属性和用户标签之间的相关性，包括关键字匹配、分类标签、来源匹配、主题标签以及用户和内容之间的向量距离等潜在特征。
用户场景功能：根据场景数据设计，包括地理位置、一天中的时间、事件标签等。
趋势特征：基于用户交互，代表全球趋势、热点话题、热门关键词、趋势主题等。
协同特征：基于协同过滤技术。它平衡了狭义推荐（偏差）和协作推荐（泛化）。更准确地说，它不仅会考虑单个用户的历史，还会分析类似用户组（点击、兴趣、关键字、主题）的协作行为。

该模型将通过学习上述特征来预测该内容是否适合某个场景中的用户。

2.2 无形的指标

在推荐模型中，点击率、阅读时间、点赞、评论、转发都是可以量化的目标。我们可以使用模型或算法来拟合它们，然后最终做出预测。

但是，其他无形的指标不能用那些可量化的指标来评估。

例如，为了维护健康的社区和生态系统，TikTok 旨在压制涉及暴力、诈骗、色情和失实新闻等内容。

为此，需要在可量化的模型目标之外定义边界控制框架。（内容审核机制）

2.3 算法

推荐目标可以表述为一个经典的机器学习问题。然后通过协同过滤模型、逻辑回归模型、分解机、 GBD、深度学习等算法求解。

协同过滤的图示（图片来源：towardsdatascience）

工业级推荐系统需要灵活且可扩展的 ML 平台来建立实验管道以快速训练各种模型。然后堆叠它们以实时服务。（例如结合LR和DNN，SVM和CNN）

除了主要推荐算法，TikTok还需要训练内容分类算法和用户画像算法。下面是用于内容分析的层次结构分类架构。

分层分类树（图片来源：towardsdatascience）

从主根向下钻取。每层向下是主类和子类。与单独的分类器相比，使用分层分类机制可以更好地解决数据倾斜的问题。

2.4 训练机制

TikTok 使用实时在线训练协议，它需要更少的计算资源并提供快速的反馈。这些对于流媒体和信息流产品很重要。

可以立即捕获用户行为和动作，然后反馈给模型以反映下一个动作。（例如，当你点击新视频时，你的下个推荐内容会根据您的最新操作快速更改）

最有可能的是，TikTok 正在使用 Storm Cluster 来处理实时样本数据，包括点击、展示、收藏、喜欢、评论和分享。

他们还构建了高性能系统作为模型参数和特征服务器（特征存储和模型存储）。该功能存储可以保存和服务十数以百万计的原有的特色和设计的载体。并且模型存储将维护和提供模型和tuned_parameters。

在线培训机制（简体版）（图片来源：towardsdatascience）

整个训练过程是1）在线服务器捕获实时数据然后存储到Kafka，2）Storm集群消费Kafka数据和产品特征，3）特征存储收集新特征和推荐标签以构建新的训练集, 4) 在线训练管道重新训练模型参数，将它们相同地放入模型存储中， 5) 更新客户端推荐列表，捕获新的反馈（用户操作）并再次循环。

3. TikTok的推荐工作流程

TikTok 从未向公众或技术社区透露其核心算法。但基于通过公司发布的零散信息，以及极客使用逆向工程技术发现的踪迹。我得出以下结论。（免责声明——这是我的解释和推断，可能与 TikTok 的做法有所不同）

推荐工作流程（图片来源：towardsdatascience）

步骤 0：用户生成内容 (UGC) 的双重审核系统

在 TikTok，每天有数百万用户上传的内容。恶意内容更容易找到单机审核系统的漏洞，在这种情况下人工审核是不现实的。因此，duo-review 成为 TikTok 筛选视频内容的主要算法。

（图片来源：towardsdatascience）

UGC的双重审核系统

机器审核：一般来说，Duo-audit 模型（基于计算机视觉）可以识别您的视频图像和关键字。它主要有两个主要功能：1）检查剪辑是否有漏洞，检查文案。如果涉嫌违规，内容将被模型拦截并标记为黄色或红色以供人工审核。2) 通过从视频中提取图片和关键帧，TikTok 的双人审计算法将提取与其海量存档内容库相匹配。重复将被拾取并降低流量并减少推荐引擎的权重。

人工审核：主要集中在3个方面：视频标题、封面缩略图和视频关键帧。对于通过 Duo-Audit 模型标记为可疑的内容，技术人员将对其进行人工审核。如果被认定为违规，视频将被删除，并暂停帐户。

第 1 步：冷启动

TikTok 推荐机制的核心是信息流漏斗。内容通过双审核后，将放入冷启动流量池。例如，在您的新视频通过审核流程后，TikTok 会分配 200-300 名活跃用户的初始流量，您最多可以获得数千次曝光。

在这种机制中，新的创作者可以与社交影响者（可能拥有数万粉丝）竞争，因为他们的起点是相同的。

第 2 步：基于公制的称重

通过初始流量池，视频可以获得数千次观看，这些数据将被收集和分析。分析中要考虑的指标包括喜欢、查看、完整查看、评论、关注者、转发、分享数据等。

然后推荐引擎会根据这些初始指标和您的帐户分数（无论您是否是高质量的创作者）权衡你的内容。

如果引擎决定权衡你的内容，前 10% 的内容将额外获得 10,000-100,000 次流量曝光。

第 3 步：用户配置文件放大器

将进一步分析来自步骤 2 流量池的反馈，以决定是否使用用户配置文件放大器。在这一步中，表现优异的内容将在特定的用户群体（例如体育迷、时尚爱好者）中得到加强和放大。

这类似于“猜你喜欢什么”功能的概念。推荐引擎将建立一个用户档案库，以便它可以找到内容和用户组之间的最佳匹配。

让用户痴迷TikTok的AI算法（下）（图片来源：towardsdatascience）

第 4 步：精品趋势池

不到 1% 的内容最终会进入趋势池。内容在此池中获得的曝光量比其他池高出一个数量级。因为热门内容会被推荐给所有用户。（假设，不管你是谁，你可能想看最新的抗议者视频“黑人的命也是命”）

其他步骤：延迟点火

一些 Tiktokers 会注意到，他们的内容在发布数周后突然获得了巨大的曝光。

主要有两个原因：

首先，TikTok 有一个算法（昵称“掘墓人”）可以回溯旧内容并挖掘高质量的候选曝光。如果您的内容被此算法选中，则表明您的帐户有足够的垂直视频来获得干净的标签。此标签将增加您在掘墓人中的内容可见性。
二是“潮流效应”。这意味着，如果您的某个内容获得数百万次观看，它会将流量引导至您的主页，从而增加我们旧内容的观看次数。这通常发生在垂直创作者（例如，逗猫视频创作者）中。一个好的视频会点燃所有其他高质量的视频（人们希望看到更多你可爱、好奇的猫）。

限制：流量高峰

如果一个内容云通过了信息流漏斗（双审核、权重迭代、放大器），创作者的账号将获得过多的曝光、用户互动和粉丝。

但根据研究，这种高曝光时间窗口很窄。通常，该窗口将持续一周左右。过了这个时间段，这个内容和账号就会降温，就连后续的视频也很难流行起来。

为什么？

主要原因是 TikTok 想要在其算法中引入多样性并消除无意的偏见。通过这种设计，推荐引擎不会偏向于特定类型的内容，从而确保新内容有平等的机会进入流行池。

（来源：Allan教你做跨境电商独立站）