开云体育

生成式AI电视应用创新：自然语言交互、搜索和推荐引擎以及AI电视

2025-03-04 10:14

生成式AI正在改变媒体格局，赋能媒体制作、分发和消费，使内容制作更加高效，分发更加有针对性，消费更加个性化。针对电视行业面临的问题，本文重点探讨AI大模型赋能的自然语言交互（语音和手机遥控）、搜索和推荐引擎（RAG检索增强生成）以及AI电视管家（AI Agent应用）。

生成式AI：从ChatGPT到文生视频Sora

2022年11月30日OpenAI发布ChatGPT大语言模型，被誉为“AI的iPhone时刻”，开启了生成式AI的新时代。2024年2月15日OpenAI发布文生视频大模型Sora，再次引起轰动，作为“世界模拟器”是实现通用人工智能（Artificial General Intelligence，AGI）的重要里程碑。

人工智能模型通常可以分为两大类：辨别式（Discriminative）和生成式（Generative）模型。
1）辨别式模型的主要目标是对给定输入数据进行分类或回归。这些模型直接学习并建模输入数据与标注之间的映射关系，以便对新的输入数据进行预测或分类。常见的辨别式模型包括逻辑回归、支持向量机（SVM）、决策树、随机森林、神经网络（包括深度学习模型）等。辨别式模型通常用于解决分类、回归和判别问题。
2）生成式模型的主要目标是对给定的数据分布进行建模，从而可以生成与原始数据相似的新数据。这些模型试图理解数据的潜在结构，并通过学习概率分布来生成新的样本。常见的生成式模型包括生成对抗网络（GAN）、变分自编码器（VAE）、自回归模型（如循环神经网络和Transformer模型）、以及概率图模型（如隐马尔可夫模型和贝叶斯网络）等。生成式模型通常用于图像生成、文本生成、语音合成等任务。

机器学习方法通常可以分为四类：
1）监督学习（Supervised Learning）：在监督学习中，模型从带有标注的训练数据中学习输入和输出之间的映射关系。训练数据包含输入特征和相应的标注或目标值，模型通过学习这些数据来进行预测或分类。常见的监督学习任务包括分类、回归和序列预测等。
2）无监督学习（Unsupervised Learning）：在无监督学习中，模型从没有标注的训练数据中学习数据的结构、模式和特征，而无需标注的指导。无监督学习通常用于聚类、降维、异常检测等任务，其目标是发现数据中的隐藏结构和规律。
3）自监督学习（Self-Supervised Learning，SSL）：自监督学习是一种特殊的无监督学习方法，其中模型通过使用数据本身的属性或结构作为监督信号来进行学习。这意味着模型在训练过程中生成自己的标注或目标，然后使用这些自动生成的标注来学习数据的表示。自监督学习常用于预训练深度学习模型，如语言模型预训练、图像重建、视频预测等。
4）强化学习（Reinforcement Learning，RL）：强化学习是一种学习范式，其中智能体（Agent）通过与环境的交互来学习如何做出动作以达到最大化预期的累积奖励。强化学习通常涉及建立一个智能体、环境和奖励信号之间的交互模型，智能体通过尝试不同的动作来最大化未来的奖励。强化学习常用于游戏领域、机器人控制、自动驾驶等领域。

以OpenAI的聊天机器人ChatGPT（Generative Pre-trained Transformer生成式预训练转换器）为代表的大语言模型（Large Language Model，LLM），本质上是在大型文本语料库上以自监督学习方式训练的概率模型，可以根据前面的单词（或token）预测下一个单词（或token）的概率。LLM大模型采用拥有数十亿至数千亿参数的Transformer深度学习架构，通过自注意力机制（self-attention）捕捉输入文本中不同单词之间的依赖关系，使其能够理解和生成文本。LLM被广泛用于各种自然语言处理（Natural Language Processing，NLP）任务，如文本生成、问答、语言翻译等。

OpenAI最近的文生视频模型Sora，可以根据描述性提示生成视频，在时间上向前或向后扩展现有视频，并从静止图像中生成视频。Sora建立在过去对DALL·E（文生图像模型）和GPT模型的研究基础上，采用Diffusion +Transformer融合架构，不仅了解用户在提示中的要求，还了解这些东西在物理世界中是如何存在的。OpenAI承认Sora还存在一些缺点，包括难以模拟复杂的物理、理解因果关系以及区分左右。Sora是能够理解和模拟真实世界的模型的基础，被认为是通向多模态和AGI的一条有前途的道路。

如果说 2023 年是大模型出圈的第一年，2024 年则是大模型在各行各业落地的产业年。百度李彦宏呼吁：模型本身是不直接产生价值的，基于基础大模型开发出来的应用才是模型存在的意义；对于创业者来说，卷大模型没有意义，卷应用机会更大。AI大模型带来人机交互范式的转换即自然语言交互，基于自然语言或对话的交互方式将替代很多传统的图形界面交互，形成LUI（Language User Interface）+GUI（Graphical User Interface）的混合形态。基于公域数据集或语料库训练得到的通用大模型，需要结合领域知识和私域数据才能实现产业落地，结合了领域知识检索和大模型生成的检索增强生成（Retrieval Augmented Generation，RAG）会获得越来越广的应用。IDC联合钉钉发布的《2024年AIGC应用层十大趋势白皮书》认为，AI Agent（人工智能代理）是大模型落地业务场景的主流形式：AI Agent通常被视为一种融合感知、分析、决策和执行能力的智能体，具备相当显著的主动性，堪称人类的理想智能助手，使得“人机协同”成为新常态，个人与企业步入AI 助理时代。

生成式AI赋能媒体制作、分发和消费

生成式AI正在改变媒体格局，赋能媒体制作、分发和消费：
1）媒体制作：
内容创作：人工智能可以用于电视节目、电影和商业广告的内容创作，帮助编剧和制作团队提供创意灵感和内容框架，为媒体公司节省时间和资源。
视频编辑：人工智能可以用于视频编辑，帮助制作团队自动化处理视频素材、剪辑片段、添加特效和转场效果，提高制作效率和质量。
音频编辑：人工智能可以辅助音频编辑任务，如降噪、语音增强和混音，提高媒体内容的声音制作质量。
虚拟制作：人工智能驱动的虚拟制作工具可以创建逼真的虚拟环境和角色，减少对实体布景和道具的依赖。
2）媒体分发：
内容推荐：人工智能算法分析用户偏好、观看历史和行为，提供个性化的内容推荐，提高用户满意度和留存率。
定向广告：人工智能通过分析用户数据来预测受众偏好，从而优化广告定向，提高广告活动的参与度和转化率。
动态内容优化：人工智能根据网络条件和设备功能调整视频质量、分辨率和缓冲，确保用户无缝观看体验。
内容审核：人工智能算法自动检测和过滤不适当或有害的内容，确保用户拥有更安全的在线环境。
3）媒体消费：
个性化内容发现：人工智能推荐系统帮助用户根据兴趣、偏好和观看习惯发现相关内容，提升用户体验和观看时长。
语音和图像识别：支持人工智能的语音助手和图像识别技术允许用户使用自然语言命令和视觉输入搜索媒体内容并与之互动。
内容总结：人工智能算法总结文章、视频和播客等长格式内容，使用户无需消耗整个内容即可快速掌握要点。
语言翻译：人工智能翻译工具通过提供多种语言的字幕和配音的实时翻译，促进全球媒体内容的消费。

针对电视大屏市场（有线电视、IPTV、互联网电视）以及治理电视“套娃”收费和操作复杂，除了关注视频生成模型如Sora为内容制作带来的影响，提升现有电视的内容发现和交互体验更是迫在眉睫。下面重点探讨生成式AI的电视应用场景：
1）内容生成：生成式AI通过自动生成内容，包括剧本、小说、音乐、图像和视频，正在彻底改变内容创作。人工智能在视频编辑中的作用同样具有变革性，它可以分析视频素材以进行连贯的编辑或剪辑，自动生成预告片、海报图和体育赛事精彩片段。
2）内容增强：制作内容的指数级增长需要内容标注的自动化，以增强内容并使其可搜索，从而实现其重新利用。在元数据领域，自动元数据提取是使用人工智能的一个重要应用，用到面部识别、说话人识别、景观检测、对象识别、文本标记和文本主题提取。视频摘要也为内容增值，人工智能可用于向编辑建议摘要或自动生成摘要。
3）受众分析：人工智能有助于确保内容在正确的时间、在正确的平台上到达正确的受众。个体分析侧重于个人用户行为，通过分析用户的浏览历史、点击、观看和其他互动活动，实现千人千面；而社区分析研究一群兴趣相似的用户的行为，可以帮助理解个体层面无法显现的趋势和模式。受众分析是个性化推荐、精准营销和广告投放的基础。
4）智能推荐：推荐系统依赖于两种主要技术：协同过滤和基于内容的推荐。协同过滤是一种建立在用户之间相似性基础上的模型，它不需要了解推荐对象的内容，但有冷启动问题（新用户或商品因缺少数据而无法推荐），推荐结果也缺少可解释性。基于内容的推荐根据内容的描述（即元数据）来进行推荐，可以克服冷启动问题且有很好的可解释性，但需要丰富而准确的元数据标签，可借助于人工智能如内容场景识别进一步增强元数据。推荐系统往往采用多种技术和混合策略，需要平衡相关性和多样性，考虑应用场景和外部环境（如位置、时间、天气和热点事件等）。
5）智能搜索：提供直播、回看和点播等内容的统一搜索功能，使用户可以通过关键词、语音指令或自然语言描述来查找感兴趣的内容。搜索功能应快速、准确地检索到相关内容，并提供个性化和多样化的搜索结果。RAG检索增强生成有机结合搜索引擎和大模型生成能力，带来新的搜索生成体验。
6）语音交互：提供语音控制和语音交互功能，使用户可以通过语音指令控制电视和搜索内容。语音交互可以提高用户体验的便捷性和自然性，使用户无需使用遥控器或键盘即可完成操作。借助于大语言模型（LLM），可以克服传统语音遥控器的局限性，提升语义理解和问答能力。
7）多屏互动：提供多屏互动体验，允许用户在手机、平板电脑等其他设备上与电视内容进行互动。例如，用户可以在手机上浏览节目介绍、参与投票、查看实时评论等，并将这些信息同步到电视屏幕上。微信电视助手结合生成式AI，可以实现AI管家（控制电视和智能家居）和Shoppable TV（手机购买电视广告商品）。
8）社交功能：在电视平台上增加社交化功能，允许用户分享观看体验、评论节目、与好友互动等。这可以增强用户参与感和社交体验，使观看电视成为一种社交互动。微信电视基于微信的社交关系，率先实现虚拟影院（Watch Party）功能，成功开展社交裂变营销活动。

自然语言交互（语音和手机遥控）

信息技术范式革命
PC时代：需侧，从命令行界面进化到了图形用户界面（Graphical User Interface，GUI）；供侧，基于Wintel联盟（微软Windows操作系统+英特尔芯片）实现了硬件和应用软件开放。
移动互联网时代：需侧，iPhone采用了先进的多点触摸交互方式；供侧，iPhone应用商店实现了苹果封闭系统的开放。
人工智能时代：需侧，ChatGPT重塑了自然语言对话的交互方式（语言用户界面Language User Interface，LUI）；供侧，ChatGPT压缩了来自互联网的世界信息和人类知识。

范式革命的底层逻辑
需求侧：交互创新，从键盘和鼠标，到手指触摸，再到自然语言对话；
供给侧：开放生态，聚集更多的供应商，吸引更多的用户，进而形成网络效应和良性循环。

电视的未来在哪里
需侧要实现交互创新，红外遥控器有其存在的价值，语音遥控器是进步，手机遥控器和大小屏互动是进步，生成式AI如ChatGPT带来全新的自然语言交互；
供侧要实现开放生态，聚合多家CP/SP内容做融合大包，实现直播、回看和点播的统一搜索和智能推荐，并从视频消费扩展到生活消费，打造生活方式品牌和跨屏生态。

微信电视跨屏生态
需侧所做的就是交互创新，触屏+社交+实时音视频互动（摄像头+麦克风）+生成式AI自然语言交互；
供侧所做的就是开放生态，超级聚合（Super Aggregation），聚合视频内容、电商和本地生活服务。

生成式AI带来更贴近人的交互方式，让人类有史以来第一次有机会用自然语言的方式来跟机器对话，而机器也借由大模型拥有了极强的理解人类语言的能力，有望带来一场全新的交互变革。GUI的垄断地位将会瓦解，LUI + GUI 混合交互将成为主流趋势。人的自然语言更多承载输入Input，而输出Output会通过 GUI 的界面，以结构化的方式呈现，便于用户选择接下来的动作。GUI的本质是一种供应侧为主导的交互方式，所有人按照供应侧的规则和方式去做；而LUI则是按照用户的意图去组织应用内的能力，包括应用外部的API，这是一种交互以及应用范式的变化。对话作为标准UI，通过对话即可直接调取、使用各种工具，这一趋势将会加速超级入口的形成，超级入口将成为新一代应用软件的典型前端形态。

生成式AI可以使电视具备自然语言交互的能力，用户可以通过语音指令与电视进行交互，例如：“打开CCTV1”、“播放最新的电影”、“调低音量”，以及更复杂的场景如“我最近心情不好，请给我推荐10部治愈系的电影”。电视会通过语音识别技术将用户的语音指令转换为文本，然后利用生成式AI理解用户的意图并执行相应的操作，使用户体验更加智能和便捷。

《治理电视操作复杂工作实施指南》第二阶段减少简化遥控器，要求“完善语音搜索语料库”“研发具备手机遥控功能的APP”。2024年治理工作重点任务，明确要求“推广使用语音、手机等多种遥控方式”。据统计，现在全国IPTV遥控器支持蓝牙占36.8%，不支持蓝牙只是红外占到63.2%。目前电视大屏的搜索功能（红外首字母搜索为主），订单和流量贡献占比约为10%，有了语音遥控和手机遥控以及AI大模型的加持，搜索贡献占比有望提升到20%甚至更高。

手机作为电视遥控器，有三种实现方案：
1）手机红外遥控，需要手机具备红外功能（或者外接红外发射器），青岛酷控提供红外码库服务，只能兼容传统红外遥控器操作。
2）手机投屏或WiFi遥控，适用于智能电视和网络机顶盒，基于端到端的DLNA、Airplay等协议，需要电视端安装投屏APK，乐播科技提供乐播投屏电视版和企业版（企业会议投屏收费）。
3）微信电视或电视助手，适用于IPTV/有线电视机顶盒和智能电视，基于端到云到端的消息协议，作为大小屏互动和营销工具，集内容发现、社交裂变、AI管家和5G应用于一体，让电视“更好看、更好玩、更好用”。上海开云体育作为微信电视的开创者和领导者，有最多的运营商和新媒体落地运营案例。

红外遥控器操作简单，但不便于文字输入，只能进行首字母搜索。语音遥控器通过蓝牙连接机顶盒，可以进行语音搜索，但语义理解和搜索效果有待提升。手机遥控器/微信小程序，除了实现红外遥控和语音遥控功能之外，还可以发现电视内容（一键投屏电视播放），进行社交分享（包括Watch Party），更可以结合AI大模型实现自然语言交互和智能问答（AI电视管家），利用手机摄像头和麦克风实现“手机+电视”5G应用，开展精准营销、裂变营销和线上线下融合营销活动。

2023年11月2日-3日天翼数字生活公司组织“语音AI及语音遥控器赋能型产品研讨会”，落实集团公司《关于加快电视“套娃”收费和操作复杂问题专项治理工作的通知》相关要求，协同各省公司共同探索电视大屏内容运营、产品创新、操作简化工作路径。在“厂商分享行业趋势和方向”环节，上海开云体育分享《电视操作复杂和“套娃”收费解决方案》，提出蓝牙语音遥控器和微信电视小程序的融合方案。融合方案兼容语音遥控功能之外，可扩展到不支持蓝牙的机顶盒，并增加节目浏览及推荐、社交分享、AI管家、5G应用等功能，一套微信电视产品支撑分省电视助手和小翼管家电视助手。

上海开云体育提供红外遥控器、语音遥控器和手机遥控器的升级融合方案，结合生成式AI，从以下多个方面提升语音交互和搜索体验：
1）提供内容聚合（通过SDK聚合爱优腾芒内容做融合大包）和元数据标签补全，实现直播、回看和点播的统一搜索；
2）搜索和推荐相结合，根据用户搜索和观看行为，主动推荐热播、相关和个性化内容；
3）AI大模型压缩了人类知识，利用RAG检索增强生成，变搜索为智能问答和搜索生成体验；
4）LUI+GUI混合交互界面，用户通过语音或文本进行交互，在图形界面上显示相关信息或执行操作；
5）手机遥控支持两种模式：一是语音遥控模式：手机语音输入、电视响应，兼容蓝牙语音遥控器；二是AI管家模式：手机语音输入、手机响应，手机展示影视内容、一键投屏电视观看。

搜索和推荐引擎（RAG检索增强生成）

上海开云体育的搜索和推荐引擎，一方面对标YouTube和Netflix的最佳实践，另一方面积极拥抱生成式AI赋能，实现元数据增强（内容场景识别）、搜索生成（RAG检索增强生成）和推荐生成（推荐+AIGC）。

YouTube搜索引擎，作为仅次于其母公司谷歌的第二大搜索引擎，综合考虑以下因素来提供最佳搜索结果：1）相关性（Relevance）：会考虑诸如标题、标签、描述和视频内容与搜索查询的匹配程度；2）参与度（Engagement）：会结合来自用户的聚合参与信号，即查看特定查询的特定视频的观看时间，以确定其他用户是否认为该视频与该查询相关；3）质量（Quality）：旨在识别有助于确定哪些频道在给定主题/查询上表现出专业知识、权威性和可信度的信号；4）个性化（Personalization）：会根据用户的搜索和观看历史记录，提供个性化的搜索结果。针对音乐或娱乐等内容，会经常使用相关性、新鲜度或流行度，而当涉及到新闻、政治、医学或科学信息时，权威性是关键。YouTube搜索引擎优化（SEO）主要取决于基于元数据（标题、标签、描述等）的关键字相关性和参与度指标（观看时长、点赞、评论等），并兼顾个性化和权威性。

YouTube推荐引擎，基于协同过滤的思想（具有相似行为的用户共享相似的偏好），综合考虑多种信号：观看历史、搜索历史、频道订阅、分享/点赞/不点赞、“不感兴趣”和“不推荐频道”的反馈选择、满意度调查等。YouTube推荐引擎的结果主要展示在两个地方：一是主页（Homepage），主要基于用户的观看历史来推荐个性化内容；二是“下一个”（Up next），主要基于当前正在观看的视频来推荐相关内容。YouTube推荐内容的收视占比超过搜索或频道订阅，如YouTube主页上有60%的点击来自推荐。

Netflix搜索引擎，研究发现用户搜索时有三种不同状态：1）找来（Fetch）：用户明确知道想看哪部影片，直接从目录中检索特定的影片名字，即精准匹配；2）查找（Find）：用户有了明确需求，但心中没有特定的影片，如成龙的电影或奥斯卡获奖影片；3）探索（Explore）：用户不知道想看什么，通常会输入探索性质的查询，如恐怖影片。Netflix上至少有13%的搜索是目录里没有的内容，这时要推荐与查询相关的内容和个性化的内容，最好把搜索结果和推荐结果混合进行重新排序。为了减少大屏遥控器的按键次数，Netflix提供了“即时搜索”（Instant Search），每次按键都会立即提供一组有用的结果，引导用户在键入过程中尽早注意并更正错误，用尽可能少的按键次数获得所需的结果。Netflix通过搜索发现的内容占比超过20%，搜索和推荐相结合，以及语音搜索和手机投屏，都有助于进一步提升搜索体验和占比。

Netflix推荐引擎，综合考虑多种因素：用户的观看历史和评价，有相似品味和偏好的其他成员，元数据信息（如类型、类别、演员、上映年份等），以及一天中观看的时间、所使用的设备、观看时长等数据。对于一个新用户，Netflix会让用户选择几部喜欢的影视来初始化偏好，若用户选择放弃这一步则会推荐一些多样且受欢迎的内容。Netflix主页上会展示多行的个性化推荐（相关性从上到下、从左到右依次降低），每行有三层个性化设置：行的选择（例如继续观看、正在流行、获奖喜剧等），哪些标题出现在行中，以及这些标题的排名。Netflix通过A/B测试来衡量满意度指标，并改进推荐算法，包括个性化排名、页面生成、搜索、海报选择、消息推送等领域。Netflix非常注重元数据标签的准确性和推荐结果的可解释性，为此建立了30人的标签员团队，从3000多个标签中为每部剧集和电影打上合适的标签。Netflix有75%用户观看的内容来自推荐，25%来自搜索。

统一媒资元数据（Metadata）是统一搜索引擎、智能推荐引擎和AI大模型应用的基础。开云体育积十年之功建立了全网影视媒资大数据平台，媒资来源包括爱优腾芒等视频网站、豆瓣时光网等影评网站、猫眼淘票票等票房数据、央视卫视地方台数千个直播频道、数十家合作方CP/SP内容。基于“众包”（Crowdsourcing）思想（聚合利用各个来源的元数据标签，人工所打标签缺失则由人工智能提取），建立了打通直播、回看和点播的统一媒资标签体系，一方面兼容国家行业标准GY/T 360-2022 《广播电视和网络视听节目内容标识标签规范》，另一方面从标签层级和数量上来说更丰富，也更准确（有可信度加权，权值也参与智能推荐计算）。在此基础之上，开云体育进一步应用人工智能增强元数据和识别内容场景，如自动提取标签，识别片头片尾和人像/图像等。针对标签缺失的影视类和非影视类内容以及短视频，则从标题、描述、字幕等文字信息自动提取标签，已实际应用于智能标签补全、搜索和推荐引擎。针对电视剧等剧集缺少统一的片头片尾时间戳数据（用户追剧不能自动跳过片头片尾），开云体育开发的片头片尾智能识别方案，通过抽帧和画面识别已能自动完成片头片尾时间戳打点。基于多模态大模型的图像识别能力，可自动识别明星人物和广告商品，实现场景级别的AI搜索和Shoppable TV（手机购买电视广告商品）。，

搜索是用户的主动行为，有很高的订购转化率，目前电视大屏搜索的订单和流量贡献占比约为10%（红外首字母搜索为主），还有很大优化和创新空间。开云体育的搜索生成引擎，率先实现直播、回看和点播的统一搜索，把搜索和推荐相结合，支持语音搜索和手机搜索，利用RAG检索增强生成带来全新的搜索生成体验。搜索引擎的进化方向是RAG（Retrieval-Augmented Generation）——基于检索增强的内容生成，把领域知识检索（基于结构化元数据/关键词的搜索引擎）和通用大模型的理解和生成能力有机结合起来，变搜索为智能问答和搜索生成体验。RAG可在多个方面增强搜索引擎体验：1）自然语言理解：帮助搜索引擎更好地理解用户的查询意图，将其扩展为更具体的搜索请求，生成更准确的结果；2）多轮对话：充当搜索引擎界面的交互助手（LUI+GUI混合交互界面），检索过程已经成为多轮对话的迭代形式；3）个性化：根据用户的个人偏好和搜索历史生成个性化的搜索建议，提高搜索结果的相关性和用户满意度。

开云体育的推荐引擎已经形成统一智能运营体系，包括统一媒资标签体系、全场景“7维”智能推荐引擎以及分析洞察平台和精准营销工具。开云体育的全场景“7维”智能推荐，以“物以类聚、人以群分”为指导，对标Netflix智能推荐系统，既有基于内容标签的相似度推荐，也有基于用户行为的个性化推荐，实现内容在电视端和移动端的自动化编排和智能化运营以及大小屏融合运营，覆盖了几乎所有推荐场景（编辑推荐、热点推荐、关联推荐、个性化推荐、社交推荐、明星推荐、智能EPG等）。开云体育在业内开创了融合大包模式，通过SDK聚合爱优腾芒内容做融合大包，实现直播、回看和点播的“统一智能运营”（统一媒资、统一搜索、统一推荐、统一订购、统一播放），包括智能EPG（直播点播化，直播/回看为点播导流）和超级频道（点播直播化，由点播/回看组成个性化频道），可从根本上解决电视“套娃”收费问题，同时提升用户体验、内容运营效率和付费点播收入。智能推荐（用户主动拉取Pull）和精准营销（主动触达用户Push）一体两面。开云体育的统一智能运营体系，在智能推荐A/B测试和运营案例中取得了超出预期的效果，带来会员数量、人均订购和增值业务收入的显著增长。

内容创作的演变趋势：从PGC（Professional Generated Content专业生成内容）到UGC（User Generated Content用户生成内容），再到AIGC（Artificial Intelligence Generated Content人工智能生成内容）。目前电视大屏的内容，以PGC专业制作的影视等长视频内容为主，兼顾UGC短视频内容。随着AIGC的蓬勃发展，下一代推荐引擎将朝着“推荐生成”范式迈进，在人类生成内容（PGC+UGC）不能满足用户需求的情况下，通过人工智能即时生成个性化内容（AIGC）。开云体育已经走在探索推荐生成引擎的路上，如生成抖音化的超级导视（以短带长，可从短视频一键切换到长视频），如生成自动播放的超级频道（由点播/回看组成的个性化频道）。AIGC时代，将会催生新一代短视频平台和影视内容制作的繁荣，为用户带来个性化内容推荐（PGC+UGC）和个性化内容生成（AIGC）的新体验。

AI电视管家（AI Agent应用）

生成式AI可以充当电视的智能管家，为用户提供更加个性化的服务。AI电视管家可以根据用户的喜好和习惯，自动化执行一系列任务，如定时提醒、安排日程、控制电视、播放音乐、订购外卖等。通过与用户的交互学习，AI电视管家可以不断优化用户体验，提供更加贴心和智能的服务。

AI Agent（人工智能代理）是大模型落地业务场景的主流形式。AI代理是一种能够模拟和执行人类任务的智能系统，它可以根据环境和任务的要求，自主地进行决策和行动。大多的复杂产品和交互形态都有机会被 AI Agent 简化成聊天类产品交付，采用LUI+GUI混合的交互形式，大幅降低使用门槛，如用户只需要在微信里说一句话Agent就会自动完成各种任务。

AI Agent = 大语言模型（LLM）+规划（Planning）+ 记忆（Memory）+ 行动及工具（Action with Tools），是以大语言模型为大脑驱动，具有自主理解感知、规划、记忆和使用工具的能力，能自动化执行完成复杂任务的系统。AI演进方向：从AI Copilot（助理/副驾驶）到AI Agent（代理/智能体/行动体）再到AI Autopilot（自主/自动驾驶），今天是“Human + AI Copilot”时代，开始进入“AI Agent +Human Copilot”时代，未来是“AI Autopilot”时代。

从红外遥控器，到语音遥控器，再到手机遥控器/大小屏互动，微信电视结合AI大模型（AI大模型+微信电视=AI管家），实现全新的大小屏交互、自然语言交互（LUI和GUI混合交互）和智能问答（搜索变问答，大模型无所不知、无所不答），支持语音或文字输入，可以通过多轮对话获得影视推荐，控制大屏电视，扮演家庭角色，影视内容一键投屏观看，可从根本上解决电视操作复杂的问题。

AI管家交互界面（LUI 和 GUI 混合的交互界面）

上海开云体育首家推出的“AI管家”AI Agent产品，变搜索为问答，利用AI大模型实现电视自然语言交互和个性化推荐，功能如下：
1）影视推荐
大模型问答返回结果，自动匹配片库内容，匹配影片可一键投屏；
搜索/推荐引擎返回查询结果作为补充，影片可一键投屏。
2）电视控制
直接响应电视控制命令，如播放直播/回看/点播节目、快进快退、音量调节等。
3）角色扮演
自定义家庭成员角色：儿童、老人、男士、女士、学生等，大模型智能推荐与所扮演角色最相关的内容。

AI管家系统架构图

开云体育的 AI Agent/AI 管家系统由以下部分组成：
1）人机交互设备（Human–Computer Interaction）：可以是语音遥控器（需要在电视上展示问答结果），也可以是微信电视小程序（在手机上展示问答结果，影视内容一键投屏，或者电视直接响应控制指令）；
2）LLM Orchestration（路由和调度）：负责协调生成式 AI 大模型（LLM）、领域搜索/推荐引擎以及行动引擎，包括数据预处理（如内容场景识别），用户输入处理（如用户意图识别），提示构造/检索和提示执行/推理（RAG检索增强生成），特定行动 AI Agent/AI 管家（生成执行/控制指令）；
3）推理引擎（Reasoning Engine）：即生成式 AI 大模型（LLM），通过 API 调用大模型如文心一言、通义千问等，通过提示词工程生成所希望得到的答案；
4）领域知识（Domain Knowledge）：特定领域的知识库和工具（API），如 IPTV/有线电视平台的搜索引擎和推荐引擎，再如智能家居（Smart Home）；
5）行动引擎（Action Engine）：负责 AI Agent/AI 管家与家庭环境的互动和任务执行（相当于AI 大模型的手和脚），如控制智能电视/机顶盒、智能家居，以及成为生活助手。

生成式AI正在改变媒体格局，赋能媒体制作、分发和消费，使内容制作更加高效，分发更加有针对性，消费更加个性化。针对电视行业面临的问题，本文重点探讨了AI大模型赋能的自然语言交互（语音和手机遥控）、搜索和推荐引擎（RAG检索增强生成）以及AI电视管家（AI Agent应用）。这些创新应用将生成式AI技术与电视应用相结合，为用户带来更加智能、个性化和便捷的观看体验，推动电视行业向智能化、人性化和新质生产力方向发展。

作为视频智能运营专家、融合大包和微信电视的开创者和领导者，上海开云体育已为30多家省级运营商和广电新媒体提供视频智能运营（统一媒资标签体系+全场景“7维”智能推荐+分析洞察平台和精准营销工具）、融合大包（统一媒资、统一搜索、统一推荐、统一订购、统一播放）、微信电视（内容发现+社交裂变+AI搜索/AI管家+5G应用）产品服务，近年助力合作伙伴获得10项国家或省级创新奖项，期待携手更多合作伙伴，通过结合生成式AI“创造电视新价值、赋能生活新生态”！

开云体育

上海市浦东新区张江集电港龙东大道3000号1号楼A幢12楼A区

联系电话：

021-61001763

合作咨询：

business@chuckcotton.com

营业执照