小红书EGMN如何实现视频观看时长预测的分布建模？

摘要：从点预测到分布建模：小红书-EGMN在视频观看时长预测中的方法与实践原文：https:arxiv.orgpdf2508.12665 一、引言：问题背景与研究动机在短视频推荐系统中，观看时长（Watch Time）被广泛视为衡量用

从点预测到分布建模：小红书-EGMN在视频观看时长预测中的方法与实践原文：https://arxiv.org/pdf/2508.12665 一、引言：问题背景与研究动机在短视频推荐系统中，观看时长（Watch Time）被广泛视为衡量用户满意度与内容质量的核心信号之一。与点击、点赞等离散反馈不同，观看时长是一个连续变量，既能反映用户是否产生兴趣，又能刻画兴趣强弱程度，因此在排序与收益建模中具有不可替代的地位。然而，从建模角度看，观看时长预测本质上是一个高难度的回归问题。一方面，其取值范围跨度大、分布极不均匀；另一方面，用户与视频的交互行为在不同层面呈现出显著差异。传统方法通常通过标签归一化或将回归问题转化为分类问题来降低难度，但这些做法往往以牺牲绝对时长信息或引入离散化误差为代价，难以从根本上解决问题。本文关注的一篇工作提出了一个关键视角：观看时长预测的核心困难并不完全来自模型能力不足，而是来自对标签分布结构认识不足。作者基于真实工业数据，对观看时长在不同粒度下的分布特性进行了系统分析，并据此提出了 Exponential-Gaussian Mixture Network（EGMN），通过显式的分布建模来统一刻画粗粒度偏斜与细粒度多样性，从而提升预测精度与稳定性。二、问题分析：多粒度观看时长分布特性论文首先从数据分布角度出发，对短视频观看时长进行了由粗到细的多粒度分析，这一步是方法设计的关键基础。在整体层面（Overall Level），观看时长分布呈现出极强的右偏特性，零附近存在高度集中的概率质量。这一现象主要由“快速划走”行为导致，即用户在极短时间内判断内容不感兴趣并立即跳过。这类行为数量庞大，使得整体分布在低时长区域高度拥挤。在视频时长分组层面（Duration Level），观看时长分布开始呈现双峰或多峰结构。对于同一时长区间的视频，一部分用户迅速退出，而另一部分用户则可能接近完整观看。这说明即便控制了视频长度，用户行为仍然具有明显分化。进一步下钻到用户层面（User Level），分布差异更加显著。有些用户表现为“挑剔型”，大多数视频被快速跳过；而另一些用户则更为“宽容”，倾向于对推荐内容进行更充分的观看。这种个体差异意味着统一的分布假设在细粒度层面难以成立。在视频层面（Video Level），观看时长分布往往呈现多模态结构。例如，剧情分段明显的视频在若干关键节点存在集中退出点，而具有强吸引力的视频则可能出现重复观看现象。这种多模态特性反映了内容结构与用户行为的复杂耦合。综合上述分析，作者将观看时长预测面临的挑战归纳为两点：其一，粗粒度层面存在由快速划走导致的强偏斜分布；其二，细粒度层面存在由用户与内容异质性引发的分布多样性。这两种特性需要在同一建模框架下被同时刻画。通常做法：使用 MSE 做观看时长回归，并不仅仅是在最小化预测误差，而是在隐式地假设观看时长在条件于特征后服从一个同方差的单峰高斯分布。该假设与短视频场景中普遍存在的快速划走、长尾行为和多模态观看模式严重不符，导致模型在理论上只能学习条件均值，在实践中难以刻画真实的用户–视频交互结构。三、方法总览：Exponential-Gaussian Mixture 建模思想针对上述挑战，论文提出不再回避复杂分布，而是直接对观看时长的生成分布进行建模。核心假设是：短视频观看时长可以被视为由不同潜在行为模式混合生成的随机变量。具体而言，作者提出 Exponential-Gaussian Mixture（EGM）分布假设。其中，指数分布用于刻画快速划走行为所带来的强偏态特性，而若干高斯分布用于刻画不同用户–视频交互模式下的观看时长波动。指数分量在低时长区域具有较高概率密度，高斯分量则在中高时长区域提供更灵活的形状表达能力。这种混合分布的设计本质上是一种多粒度统一建模思路：指数分布负责解释全局层面的集中偏斜，高斯分布负责吸收细粒度层面的多样性。通过在一个统一的概率框架下联合建模，模型无需依赖人为的标签变换或任务拆解。四、模型结构：Exponential-Gaussian Mixture Network（EGMN）为了在神经网络框架下参数化 EGM 分布，论文提出了 Exponential-Gaussian Mixture Network。整体结构可以分为两个主要模块。第一部分是隐藏表示编码器。模型接收用户特征、视频特征及上下文特征作为输入，通过多层神经网络映射到一个共享的隐藏表示空间。该表示被视为对当前用户–视频交互状态的高层抽象，是后续分布参数生成的共同基础。第二部分是混合分布参数生成模块。基于共享隐藏表示，模型分别预测指数分布的参数、高斯分布各分量的均值与方差，以及各分量对应的混合权重。

小红书EGMN如何实现视频观看时长预测的分布建模？

相关推荐