首页 / 社会万象 / 正文
短视频时代平台挑战下,快手多模态大模型重塑生态的尝试

Time:2025年05月11日 Read:2 评论:0 作者:haiwenboyue

机器释放的心脏

机器心脏社论部

在短视频已成为数亿用户日常生活的标准配置时,它不仅是一种娱乐方式,而且是人们获得信息,表达意见并建立社交互动的主要媒介。随着内容量的爆炸,平台面临着前所未有的挑战:一方面,他们需要更有效地识别和管理内容;另一方面,他们必须准确地将高质量的内容推向真正有兴趣的用户。

大型模型技术,尤其是多模式大型模型,迅速成为人工智能领域的新引擎,具有强大的图形,文本,音频和视频理解功能。但是,在简短视频生态学的复杂而快速发展的情况下,如何真正实施这些技术仍然是一个困难的行业主张。

作为中国领先的短视频社区,试图使用多模式大型模型重塑简短的视频生态系统,提出了一个简短的视频平台生态优化和基于多模式大型模型的全面用户体验改进解决方案,并在实际部署中取得了显着的结果。这种创新的措施不仅为短视频平台的健康开发提供了新的想法,而且为该行业树立了基准。

基于多模式大型模型的简短视频生态优化解决方案

低质量的内容在各种媒体平台上广泛存在,识别和过滤这些内容是改善用户体验和平台生态系统的重要组成部分。但是,传统的视频质量歧视方案极大地依赖于静态规则和标记人员歧视,从而导致高判断成本,并且很难适应内容令人作呕的用户的动态性质。现有的自动化质量歧视方案主要通过大型语言模型的关键字匹配和及时的工程()进行过滤,这使得难以确保识别和过滤的准确性。目前,该行业仍然缺乏短视频平台和成熟自动标识解决方案的内容质量评估标准。

独立完成了针对短视频平台的第一个内容质量歧视基准测试的构建。它依靠自己的生态系统创建了一个数据集,其中涵盖了1,000个真实平台短视频,其中涵盖了4类主要劣等内容和15类细粒较低内容类型,并进一步提出了一个工业级自动化的简短视频质量歧视框架。与依赖书面法规的大陆法律制度的判别策略不同,我们借鉴了案例法在灵活性方面的优势,并深入分析了视频导致用户根据视觉语言模型(VLMS)感到厌恶的原因。我们使用案例来定义判别策略,从而解决了短视频平台中劣等内容的动态变化问题。该解决方案广泛使用基于用户反馈的强化学习策略,以帮助一般VLM完整的离线适应和在线更新视频质量歧视任务。该模型通过更新案例实时抓取平台趋势,以确保对新内容和劣等内容的准确识别。

在离线测试中,-7B模型在四个主要较低类别中的总体准确性高达92.4%,与其他歧视计划相比,增加了10%以上。

目前,歧视计划已在平台上完全部署,为数百万每日新视频提供了优质的歧视服务,并确保了数亿用户的用户体验。 A/B测试表明,它将用户报告率降低了20%以上,显示出巨大的工业潜力。

为了促进短视频平台的生态优化社区的发展,当前的评估标准和详细的技术解决方案论文已完全开源。

主要贡献

1。歧视短视频平台的劣等内容的第一个基准测试:这项工作已为生态系统建立了用于短视频劣等内容的分类系统,正式定义了简短视频的歧视任务,并构建了基于用户反馈的短视频的第一个基准测试,以构建第一个基准测试,以实现现实反馈的较短视频。劣等内容分类系统包括4个主要的下等类别和15个细粒次级类别。基准测试包含1000个简短的视频样本,涵盖15个细粒度的较低类别,完全由手动标记,并进行了多轮数据清洁以确保正确性。

2。第一个工业级自动化内容歧视解决方案:目前,其他媒体等媒体平台探索了基于深度学习模型的自动化内容质量歧视解决方案,但尚未宣布一条成熟的技术路线。这是第一个自动化内容质量歧视解决方案,可验证工业场景中的部署价值。部署导致平台的多种情况表明,该解决方案的准确性可与手动歧视相媲美。我们已经在论文中详细描述了计划的技术途径,希望触发更多的交流和讨论。

3。基于用户反馈的强化学习培训 +更新策略:不同于静态规则或内容歧视API,基于先例的较低内容建模使得可以通过迭代培训数据来完成歧视策略的更新。为了确保实时和准确性,我们根据用户反馈设计了强化学习范式,并使用用户的在线反馈来构建新的培训数据,以实现在线歧视服务的天堂级别更新。

1。短视频质量歧视基准测试

低质量的内容分类系统

为了应对劣等内容的无休止的新添加,已经建立了动态​​的下等内容分类系统。根据的最初判断标准,劣等内容分为四个独立的主要类别:法律和社会保障,内容质量和道德,不良的商业行为以及侵犯知识产权。基于四个主要类别,进一步构建了动态的细粒次要次要内容分类系统。具体而言,初始分类系统包括15个细粒下标签。在随后的歧视过程中,如果视频内容被判断为低质量,但没有匹配的细颗粒标签,则将根据劣等内容为视频生成一个新的细粒标签,并包含在原始分类系统中。自部署以来,分类系统中劣等内容的标签数量已从15增加到100,从而实现了新的劣等内容的覆盖范围和细粒度的分类。

基准测试

基于上述分类系统,我们构建了该行业的第一个基准,用于简短视频平台的内容质量歧视。基准测试由平台的1,000个简短视频和相应的分类标签组成,其中578个视频是非偏远的内容,422个劣质视频涵盖了初始分类系统中的15个细粒度的下等级类型。多个高级注释者检查基准中的每个数据,以确保分类标签的正确性。经过严格的数据脱敏和清洁后,我们为基准测试开了开源,希望促进短视频平台的生态优化社区的沟通和开发。

2。短视频质量歧视计划

质量歧视模型基于作为基础开发的一般多模式模型,并面向视频质量歧视任务。它是使用链条推理数据的离线训练的,并在线部署,并且根据在线反馈不断更新歧视策略。

链推理数据构建

培训数据的构建结合了手动歧视结果和大型模型推断能力。为了通过多模式大型模型增强视频内容和下等标签的因果建模,我们设计和处理以为每个培训数据提供细致的分析过程。

我们使用在线用户不喜欢(报告/厌恶/不良评论)视频队列和用户喜欢的高质量视频队列作为数据源,手动注释者用细粒度的下等标签标记每个数据。

快手那个姐弟快手号_快手红人快手id_快手快手

在此过程中,多模式模型使用视频元素信息(视频标题,封面,视频框架,OCR/ASR文本,用户注释等)作为手动标签的输入,并根据指令分析视频内容,以为手动歧视结果提供思维链格式的基础。在此过程中,为了构建推理过程,我们为视频质量歧视任务设计了一个特殊的过程。具体来说,我们将视频质量歧视分为五个状态:内容提取,内容分析,中期检查,用户反馈分析和简易判断。多模型模型将过程中生成的视频内容和思维链组织成状态转移格式。

SFT+DPO离线改编

基于构建的链推断数据,模型的离线适应由两阶段训练,SFT和DPO组成。

在SFT阶段,视频元素信息被整合为输入,下一个任务培训模型用于生成推理过程和歧视结果。

在DPO阶段,使用SFT之后的模型在训练集上生成推理结果,并且从中选择了确定结果误差的样品,模型的生成结果用作负面示例,将原始训练数据用作正面示例,构建了首选项数据,并且直接优先优先级别的 the 用于误差样品。

强化学习(RLUF)基于用户反馈更新范式

尽管该模型在离线适应后具有初步的视频质量歧视能力,但由于社交视频平台上的劣等内容会随用户和社交趋势而变化,因此静态质量歧视模型无法有效地适应这种动态性质。因此,在在线更新阶段,我们根据用户反馈设计了增强学习(RLUF)范式,并不断优化了模型的判别策略。

RLUF包括以下关键元素:

更新区分劣等内容策略的关键是消除模型和用户对劣等内容的理解之间的差异。为此,选择了模型歧视结果的视频案例与用户反馈不一致作为优化阶段的培训数据。具体步骤包括:

1。实时困难示例:困难的示例来自用户报告的视频和热视频。报告行为直接反映了用户了解的劣质内容的范围,而热视频由于其受欢迎程度而具有更高的差异,并且还反映了平台趋势和用户的偏好。

2。数据过滤:

在在线更新阶段的培训中,我们仍然使用直接偏好优化算法将模型判别策略与用户反馈保持一致。

离线绩效评估

我们在基准上评估了各种视频质量歧视方案,从较早的编码器到高级-VL模型,从通用GPT-4O到专业API,再到离线适应的-7B模型。评估包括简单的下/非二进制分类和细粒标签的多类别。

评估结果表明,视频质量歧视任务中存在以下关键要素:

1。歧视标准的真实性:在许多歧视方法中,它是唯一的工业级内容歧视API,但是由于所使用的模型较早训练并且无法进行微调,因此准确率低于其他微调方法和更新的GPT-4O。

2。多模式理解能力:可以利用多模式信息的方法通常比只能使用文本信息的模型更好。强大的视觉理解能力对于视频质量歧视任务至关重要。

与其他方法相比,-7B模型的总体准确度达到92.4%,并提高了近10%,显示了性能优势和应用潜力。

在线部署绩效增长

为了验证解决方案的实际应用值,我们在生态系统( , 和主站点)的三种情况下进行了A/B测试。在快速版和选定的场景中,质量歧视服务将视频报告率降低了20%以上,从而大大改善了用户的观看体验。同时,质量歧视服务对活跃用户的数量和查看时间没有负面影响,这证明了消除的简短视频与主流用户的利益不符。在主要站点方案中,质量歧视服务增加了活跃用户的规模和人均观看时间,这证明删除劣质内容对于短视频平台的开发具有很大的价值。

3。致力于创建一个多式模型,以用于社区简短视频理解

短视频平台的内容分布面临两个核心挑战:如何准确地从大量内容中捕获用户兴趣,以及如何在信息超载时代的用户和内容之间建立有效的连接。随着简短视频内容的多元化和复杂性,该平台需要探索更高级的建议技术,以提高建议的准确性和解释性,以更好地满足用户的需求。

致力于创建一个可以真正“了解社区简短视频”的多模式模型。它不仅在技术指标中追求突破,而且还全面地重塑了平台的智能基础架构,从用户体验,内容理解到业务货币化。这不仅与产品的升级有关,而且还代表着实现AI值的新途径。

多模式语义理解的“硬骨”:简短视频语义远远超过了多模式的一般范式

与标准化的电影和电视视频或一般图形内容相比,社区简短视频的语义环境非常复杂:内容严重分散,情况高度依赖,语言和视野高度整合,表达方式是高度个性化的,并且沟通意图通常是在动作,音调,背景和背景和背景和背景和背景和背景中隐含的。这意味着只有能够真正“理解,理解和理解”的大型模型这些视频才能为诸如建议,搜索和内容生成之类的核心功能提供有效的支持。

这是促进多模式大型模型的构建的起点。

快手红人快手id_快手快手_快手那个姐弟快手号

团队清楚地指出,该模型不仅需要实现语言,愿景和音频等方式的信息融合,而且还需要:

传统方法通常会停止提取视频内容表示形式,但是需要做的是从“表示”转向“理解” - 这是通往下一代AI系统的唯一途径。

建立一个以“视频理解”为核心的多模型模型框架

为此,的自我开发的大型模型能力被系统地分为三个级别:

级别1:多模式基本功能

该层的重点是打开多模式输入(例如视频,图像和文本)的表示空间。团队探索了各种培训范例:

在模型培训数据方面,建立了一个高质量的中国短视频语料库,支持了“视频声音 - 文本”的三位一体,并建立了一个以“视频结构化标签系统”为中心的培训监督链,以实现该模型对短视频语义单位的准确识别。

级别2:高级认知和推理技能

具有感知能力后,将模型推向了认知和推理能力的更高维度。关键突破的这一部分如下:

与图形和文本领域的大型模型功能相比,的优势是其数据更接近用户的真正兴趣轨迹,并具有建立“知道心脏”模型的土壤。

第三层:多模式应用功能

多模型的目标不是“实验室指标”,而是“场景封闭环”。当前,该模型已被广泛部署在平台的多个核心任务中,包括:

尤其是在产品推荐和内容创建领域,正在建立完整的“知识驱动的AI内容理解理解生成责任”的链条,以实现从内容理解到价值转换的智能飞跃。

在实际业务中,该模型系统在用户行为可解释性任务中显示出显着的结果 - 在主网站和速度版的核心方案中,该平台的多个积极核心指标稳步改善,主站点场景中的报告速率下降了26%以上,而速度版本已下降了24%,超过24%,完全反映了实现多个型号的实现大型业务。

三阶段路径:从容量建设到生态闭环

在建造多模式大型模型中采用了明确的分阶段策略,努力逐步建立具有工业价值和应用程序闭环的模型能力系统,并具有系统的投资。

阶段1:合并基本功能

着重于多模型模型的基本能力建设,重点是构建统一标签系统,收集和清洁多源异质语料库以及多模式监督机制的初步构造。通过标准化和结构化标签系统,该模型具有更准确的语义锚点,为高质量训练奠定了基础。

第2阶段:促进语义融合和兴趣建模

随着基本功能的成熟,开始将其模型功能扩展到内容和用户之间的深入了解。在此阶段,我们专注于探索内容语义结构和用户行为偏好之间的链接机制,在业务场景(例如建议和搜索)中促进知识图的实际实现,并进一步提高内容分布的准确性和用户体验。

第三阶段:实现产品集成和业务共鸣

基于模型功能的逐步改进,将多模式技术集成到了平台的多个关键业务流程中,并对诸如内容理解,创建帮助和业务建议等多个任务的多个任务进行了统一的支持。同时,探索AI功能在营销,分销,内容生产和其他方案中的创新应用,并将模型从“算法引擎”推广到“平台能力”。

这种分阶段的策略不仅确保了技术构建的系统性质,而且还可以实现大规模的应用和价值实现,以稳步实现大规模应用。

离开学术范式,进入“场景是能力”的工业实践阶段

的多模式模型不是要赶上趋势,而是要从真实场景的需求中加深技术。它代表的是由中国内容生态系统中社区和简短视频驱动的智能转型路径。

如果过去的多模型模型更像是“工程学术成就”,那么的路线更像是“从产品向后发展的技术进化”。在此过程中,表现出罕见的“缓慢努力”和务实的精神:首先了解任务本身,然后促进模型优化,最后构成业务闭环。这种基于需求的技术策略,基于自我开发的和方案驱动的驱动,为整个中国AI生态系统提供了一个新的范式样本。

标签:
关于我们
海文博阅网,打造全方位的文化信息阅读平台,涵盖社会动态、历史人文、生活百科等广泛内容。我们为读者提供高质量的资讯和深度文章,让阅读成为获取知识、拓宽视野的桥梁。在这里,您可以随时随地畅游知识的海洋,感受阅读的魅力。
发文扫码联系站长微信
Copyright ©2021-2025 Comsenz Inc.Powered by©haiwenboyue 文章发布联系站长:dat818