脑门长痘痘是什么原因| 敌敌畏中毒用什么洗胃| 不约而至是什么意思| 血红蛋白低是什么原因| 爱长闭口用什么护肤品| 6月28是什么星座| reads是什么意思| 子宫颈肥大有什么危害| 赖氨酸有什么作用| 腋下是什么部位| 梦到知了猴是什么意思| 处女座男和什么座最配对| 鸡为什么吃自己下的蛋| 耳朵背后有痣代表什么| 桃子什么时候成熟| 乳酪是什么东西| hiit是什么意思| 54岁属什么的| 添堵是什么意思| 脚背疼挂什么科| 什么是it行业| 胸部ct挂什么科| 美女的阴暗是什么样的| 女人肾虚吃什么| 姝字五行属什么| 白葡萄酒配什么食物| 脱发是什么原因引起的| 发热是什么症状| NG是什么| 娃哈哈纯净水是什么水| 胃幽门螺旋杆菌吃什么药| 什么叫内分泌失调| 肚子一直咕咕叫是什么原因| 乐五行属什么| 头孢喝酒有什么反应| 甲沟炎是什么引起的| 丞字五行属什么| 苔菜是什么菜图片| 酵素什么牌子好| 沙茶酱是什么做的| 真棒是什么意思| 吃什么保养子宫和卵巢| 心跳过快是什么原因| 2024年属什么| 感冒反复发烧是什么原因引起的| b什么意思| 外阴瘙痒用什么| 吃鱼对身体有什么好处| 小孩肚子疼拉肚子吃什么药| 月子中心需要什么资质| 抖是什么意思| 高筋面粉可以做什么| 送男生什么礼物| 肝郁脾虚吃什么药| 为什么明星不激光祛斑| 反流性食管炎吃什么药最有效| 自由基是什么意思| 灵芝的功效与作用是什么| 太阳一晒脸就红是什么原因| 梦见旅游是什么意思| 蛋白电泳是查什么的| 脸上长黑痣是什么原因| 眼睛充血是什么原因| 什么牛什么毛| 中介什么意思| 下家是什么意思| 熬中药用什么锅好| 什么朦胧| 早上起床口苦口干是什么原因| 黄芪有什么功效| qjqj什么烟| 小便次数多吃什么药| 梦见鬼是什么意思| 甜蜜素是什么东西| 五年存活率是什么意思| 拉拉是什么意思| 真菌阳性是什么意思| 树敌是什么意思| 12.16是什么星座| 中将相当于什么级别| 蚊子的天敌是什么| 桂枝是什么| o型血的人是什么性格| 做梦梦到很多蛇是什么意思| 一什么茶| 金屋藏娇定富贵是什么生肖| 晨尿有泡沫是什么原因| 梅毒长什么样| 生活方式是什么意思| 空调健康模式是什么意思| 五行缺金是什么意思| b型血为什么招蚊子| 巴旦木是什么| 5月7日是什么星座| 宝路华手表什么档次| 茂密的枝叶像什么| 贞操是什么| 机能鞋是什么意思| 喝蜂蜜水不能吃什么| 唱歌有什么好处| 胃肠化是什么意思| 师级干部是什么级别| 什么是纳囊| 心脏不好有什么症状| 灰指甲吃什么药| 汪星人什么意思| 较前相仿是什么意思| 屮艸芔茻什么意思| 导是什么意思| 发烧咳嗽挂什么科| 黑匣子是什么| 为什么医院开的钙都是碳酸钙| 杏干泡水喝有什么功效| 世界上最长的河流是什么| 去医院看舌头挂什么科| 分解酒精的是什么酶| 11度穿什么衣服| 头晕目眩是什么原因| 胆固醇高对身体有什么危害| 吃什么精力旺盛有精神| 男人什么时候精子最强| 支气管舒张试验阳性是什么意思| 慢性鼻窦炎吃什么药| 什么能让男人变大变长| 吃什么补铁| 岁寒三友是什么意思| 新生儿血糖低是什么原因| 鼻屎多是什么原因| 压马路是什么意思| 花椒什么时候采摘| 孑然一身是什么意思| 骨挫伤是什么意思| 上梁山是什么意思| ms.是什么意思| 看腋窝挂什么科| 什么原因造成高血压| 黯淡是什么意思| pr是什么工作| 88年出生属什么生肖| 花生什么时候种| 吃人嘴短拿人手软什么意思| 六字真言是什么意思| 9月8号是什么星座| 避孕套上的油是什么油| 胸膜炎是什么症状| 脾胃不好吃什么| 黄体期出血是什么原因| 为什么高考要体检| 医生会诊是什么意思| ssc是什么意思| 莲藕是荷花的什么部位| 缘故的故是什么意思| 孕晚期呕吐是什么原因| 外面下着雨犹如我心血在滴什么歌| p图是什么意思| 贱痣是什么意思| 516是什么星座| 阿托伐他汀钙片治什么病| 小孩拉肚子吃什么药效果好| 低压高什么原因导致的| 烧伤用什么药| penguin是什么意思| 单病种是什么意思| 眼睛出现重影是什么原因| 结痂什么意思| 家慈是什么意思| 革兰阳性杆菌是什么病| 丈夫早亡的女人什么命| 梦见蛇是什么预兆| 牙槽骨吸收是什么意思| 18是什么生肖| 掉是什么意思| 碧螺春属于什么茶| 96年属鼠的是什么命| 呼吸困难吃什么药| 什么王| 白鹭吃什么| 晨尿有泡沫是什么原因| jones是什么意思| 腹泻恶心想吐是什么原因| EPS什么意思| 硬度不够吃什么中成药| alan什么意思| 双向情感障碍吃什么药| 起什么网名好听| 痔疮有什么症状表现| 吴佳尼为什么嫁马景涛| 戒指戴在食指什么意思| 胰腺低密度影什么意思| 吃玉米有什么好处| 湿疹用什么药最有效| 又什么又什么式的词语| 什么水果去湿气效果最好| 搬家有什么讲究和忌讳| 夏天用什么带饭不馊| 寄托是什么意思| qid医学上是什么意思| la是什么牌子| 超细旦是什么面料| 下巴下面长痣代表什么| 晚上放屁多是什么原因| 卡路里是什么| 珵字五行属什么| 胃酸恶心想吐什么原因| 四个横念什么| smt是什么| 今年是什么属相| 什么样的青蛙| 体重除以身高的平方是什么指数| 鱼喜欢什么颜色| 阴虚火旺是什么意思| 甲钴胺片是治什么病| 颈动脉斑块是什么意思| 生化流产是什么原因造成的| 乖乖是什么意思| 轻度抑郁症吃什么药| 牛肉馅配什么菜包饺子好吃| 杭州的市花是什么花| hpv52高危阳性是什么意思| 体温偏低是什么原因| x是什么牌子的衣服| 月经下不来吃什么药| 受精卵着床有什么症状| 药引子是什么意思| 日语为什么怎么说| 为什么额头反复长痘痘| 鱼最喜欢吃什么| 什么是血栓| 光圈是什么| 小孩脸上长痣是什么原因引起的| 肚脐左上方是什么部位| 枸杞子有什么功效| 胎儿腹围偏大说明什么| 王的五行属性是什么| 鬓发是什么意思| 下巴长痘是什么原因| 长期喝苦荞茶有什么好处| 肌酐激酶高是什么原因| 有样学样是什么意思| 支气管发炎是什么原因引起的| 3月7日是什么星座| 戒奶涨奶痛有什么缓解方法| 80是什么意思| 人体最大器官是什么| 双肾结晶是什么意思| 6月底什么星座| 什么植物好养又适合放在室内| 鱼子酱什么味道| 炖牛肉放什么调料| 全身骨显像是查什么的| 脑内散在缺血灶是什么意思| 二月十八是什么星座| 高锰酸钾加什么会爆炸| 釜底抽薪是什么计| 高血压一级是什么意思| 容貌是什么意思| 脚掉皮是什么原因| 糖尿病能吃什么水果| 什么地唱歌| 西游记是一部什么小说| 脚气是什么菌| 泡泡尿是什么毛病| 面首是什么| marmot什么牌子| 百度

【体服】剑网3体服技改后 论各输出心法PVE环境

运维 系统运维 算法
算法分发已经是信息平台、搜索引擎、浏览器、社交软件等几乎所有软件的标配,但同时,算法也开始面临质疑、挑战和误解。
百度 批准这类活动必须有法律法规或省部级以上文件为依据,从严控制、严格审批。

[[217643]]

今天,算法分发已经是信息平台、搜索引擎、浏览器、社交软件等几乎所有软件的标配,但同时,算法也开始面临质疑、挑战和误解。

网友整理的各大平台推荐算法(搞笑版)

今日头条的推荐算法,从 2012 年 9 月第一版开发运行至今,已经经过四次大的调整和修改。

今日头条委托资深算法架构师曹欢欢博士,公开今日头条的算法原理,以推动整个行业问诊算法、建言算法;通过让算法透明,来消除各界对算法的误解,并逐步推动整个行业让算法更好的造福社会。

3 分钟了解今日头条推荐算法原理

本次分享主要围绕五个方面介绍今日头条的推荐原理:

  • 系统概览
  • 内容分析
  • 用户标签
  • 评估分析
  • 内容安全

系统概览

推荐系统,如果用形式化的方式去描述实际上是拟合一个用户对内容满意度的函数。

这个函数需要输入三个维度的变量:

  • 内容。头条现在已经是一个综合内容平台,图文、视频、UGC 小视频、问答、微头条,每种内容有很多自己的特征,需要考虑怎样提取不同内容类型的特征做好推荐。
  • 用户特征。包括各种兴趣标签,职业、年龄、性别等,还有很多模型刻划出的隐式用户兴趣等。
  • 环境特征。这是移动互联网时代推荐的特点,用户随时随地移动,在工作场合、通勤、旅游等不同的场景,信息偏好有所偏移。

结合三方面的维度,模型会给出一个预估,即推测推荐内容在这一场景下对这一用户是否合适。

这里还有一个问题,如何引入无法直接衡量的目标?

推荐模型中,点击率、阅读时间、点赞、评论、转发包括点赞都是可以量化的目标,能够用模型直接拟合做预估,看线上提升情况可以知道做的好不好。

但一个大体量的推荐系统,服务用户众多,不能完全由指标评估,引入数据指标以外的要素也很重要。

比如广告和特型内容频控,像问答卡片就是比较特殊的内容形式,其推荐的目标不完全是让用户浏览,还要考虑吸引用户回答为社区贡献内容。这些内容和普通内容如何混排,怎样控制频控都需要考虑。

此外,平台出于内容生态和社会责任的考量,像低俗内容的打压,标题党、低质内容的打压,重要新闻的置顶、加权、强插,低级别账号内容降权都是算法本身无法完成,需要进一步对内容进行干预。

下面我将简单介绍在上述算法目标的基础上如何对其实现。

前面提到的公式 y = F(Xi ,Xu ,Xc),是一个很经典的监督学习问题。可实现的方法有很多。

比如传统的协同过滤模型,监督学习算法 Logistic Regression 模型,基于深度学习的模型,Factorization Machine 和 GBDT 等。

一个优秀的工业级推荐系统需要非常灵活的算法实验平台,可以支持多种算法组合,包括模型结构调整,因为很难有一套通用的模型架构适用于所有的推荐场景。

现在很流行将 LR 和 DNN 结合,前几年 Facebook 也将 LR 和 GBDT 算法做了结合。

今日头条旗下几款产品都在沿用同一套强大的算法推荐系统,但根据业务场景不同,模型架构会有所调整。

模型之后再看一下典型的推荐特征,主要有四类特征会对推荐起到比较重要的作用。

  • 相关性特征,就是评估内容的属性和用户是否匹配。显性的匹配包括关键词匹配、分类匹配、来源匹配、主题匹配等。像 FM 模型中也有一些隐性匹配,从用户向量与内容向量的距离可以得出。
  • 环境特征,包括地理位置、时间。这些既是 bias 特征,也能以此构建一些匹配特征。
  • 热度特征。包括全局热度、分类热度,主题热度,以及关键词热度等。内容热度信息在大的推荐系统特别在用户冷启动的时候非常有效。
  • 协同特征,它可以在部分程度上帮助解决所谓算法越推越窄的问题。协同特征并非考虑用户已有历史。

而是通过用户行为分析不同用户间相似性,比如点击相似、兴趣分类相似、主题相似、兴趣词相似,甚至向量相似,从而扩展模型的探索能力。

模型的训练上,头条系大部分推荐产品采用实时训练。实时训练省资源并且反馈快,这对信息流产品非常重要。

用户需要行为信息可以被模型快速捕捉并反馈至下一刷的推荐效果。我们线上目前基于 Storm 集群实时处理样本数据,包括点击、展现、收藏、分享等动作类型。

模型参数服务器是内部开发的一套高性能的系统,因为头条数据规模增长太快,类似的开源系统稳定性和性能无法满足,而我们自研的系统底层做了很多针对性的优化,提供了完善运维工具,更适配现有的业务场景。

目前,头条的推荐算法模型在世界范围内也是比较大的,包含几百亿原始特征和数十亿向量特征。

整体的训练过程是线上服务器记录实时特征,导入到 Kafka 文件队列中,然后进一步导入 Storm 集群消费 Kafka 数据,客户端回传推荐的 Label 构造训练样本,随后根据最新样本进行在线训练更新模型参数,最终线上模型得到更新。

这个过程中主要的延迟在用户的动作反馈延时,因为文章推荐后用户不一定马上看,不考虑这部分时间,整个系统是几乎实时的。

但因为头条目前的内容量非常大,加上小视频内容有千万级别,推荐系统不可能所有内容全部由模型预估。

所以需要设计一些召回策略,每次推荐时从海量内容中筛选出千级别的内容库。召回策略最重要的要求是性能要极致,一般超时不能超过 50 毫秒。

召回策略种类有很多,我们主要用的是倒排的思路。离线维护一个倒排,这个倒排的 key 可以是分类,topic,实体,来源等,排序考虑热度、新鲜度、动作等。

线上召回可以迅速从倒排中根据用户兴趣标签对内容做截断,高效的从很大的内容库中筛选比较靠谱的一小部分内容。

内容分析

内容分析包括文本分析,图片分析和视频分析。头条一开始主要做资讯,今天我们主要讲一下文本分析。

文本分析在推荐系统中一个很重要的作用是用户兴趣建模。没有内容及文本标签,无法得到用户兴趣标签。

举个例子,只有知道文章标签是互联网,用户看了互联网标签的文章,才能知道用户有互联网标签,其他关键词也一样。

另一方面,文本内容的标签可以直接帮助推荐特征,比如魅族的内容可以推荐给关注魅族的用户,这是用户标签的匹配。

如果某段时间推荐主频道效果不理想,出现推荐窄化,用户会发现到具体的频道推荐(如科技、体育、娱乐、军事等)中阅读后,再回主 Feed,推荐效果会更好。

因为整个模型是打通的,子频道探索空间较小,更容易满足用户需求。只通过单一信道反馈提高推荐准确率难度会比较大,子频道做的好很重要。而这也需要好的内容分析。

上图是今日头条的一个实际文本 case。从图中可以看到,这篇文章有分类、关键词、topic、实体词等文本特征。

当然不是没有文本特征,推荐系统就不能工作,推荐系统最早期应用在 Amazon,甚至沃尔玛时代就有,包括 Netfilx 做视频推荐也没有文本特征直接协同过滤推荐。

但对资讯类产品而言,大部分是消费当天内容,没有文本特征新内容冷启动非常困难,协同类特征无法解决文章冷启动问题。

今日头条推荐系统主要抽取的文本特征包括以下几类。首先是语义标签类特征,显式为文章打上语义标签。这部分标签是由人定义的特征,每个标签有明确的意义,标签体系是预定义的。

此外还有隐式语义特征,主要是 topic 特征和关键词特征,其中 topic 特征是对于词概率分布的描述,无明确意义;而关键词特征会基于一些统一特征描述,无明确集合。

另外文本相似度特征也非常重要。在头条,曾经用户反馈最大的问题之一就是为什么总推荐重复的内容。这个问题的难点在于,每个人对重复的定义不一样。

举个例子,有人觉得这篇讲皇马和巴萨的文章,昨天已经看过类似内容,今天还说这两个队那就是重复。

但对于一个重度球迷而言,尤其是巴萨的球迷,恨不得所有报道都看一遍。解决这一问题需要根据判断相似文章的主题、行文、主体等内容,根据这些特征做线上策略。

同样,还有时空特征,分析内容的发生地点以及时效性。比如武汉限行的事情推给北京用户可能就没有意义。

最后还要考虑质量相关特征,判断内容是否低俗,色情,是否是软文,鸡汤?

上图是头条语义标签的特征和使用场景。他们之间层级不同,要求不同。

分类的目标是覆盖全面,希望每篇内容每段视频都有分类;而实体体系要求精准,相同名字或内容要能明确区分究竟指代哪一个人或物,但不用覆盖很全。

概念体系则负责解决比较精确又属于抽象概念的语义。这是我们最初的分类,实践中发现分类和概念在技术上能互用,后来统一用了一套技术架构。

目前,隐式语义特征已经可以很好的帮助推荐,而语义标签需要持续标注,新名词新概念不断出现,标注也要不断迭代。

其做好的难度和资源投入要远大于隐式语义特征,那为什么还需要语义标签?

有一些产品上的需要,比如频道需要有明确定义的分类内容和容易理解的文本标签体系。语义标签的效果是检查一个公司 NLP 技术水平的试金石。

今日头条推荐系统的线上分类采用典型的层次化文本分类算法。

最上面是 Root,下面第一层的分类是像科技、体育、财经、娱乐,体育这样的大类。

再下面细分足球、篮球、乒乓球、网球、田径、游泳等,足球再细分国际足球、中国足球,中国足球又细分中甲、中超、国家队等。

相比单独的分类器,利用层次化文本分类算法能更好地解决数据倾斜的问题。有一些例外是,如果要提高召回,可以看到我们连接了一些飞线。

这套架构通用,但根据不同的问题难度,每个元分类器可以异构,像有些分类 SVM 效果很好,有些要结合 CNN,有些要结合 RNN 再处理一下。

上图是一个实体词识别算法的 case。基于分词结果和词性标注选取候选,期间可能需要根据知识库做一些拼接,有些实体是几个词的组合,要确定哪几个词结合在一起能映射实体的描述。

如果结果映射多个实体还要通过词向量、topic 分布甚至词频本身等去歧,最后计算一个相关性模型。

用户标签

内容分析和用户标签是推荐系统的两大基石。内容分析涉及到机器学习的内容多一些,相比而言,用户标签工程挑战更大。

今日头条常用的用户标签包括用户感兴趣的类别和主题、关键词、来源、基于兴趣的用户聚类以及各种垂直兴趣特征(车型,体育球队,股票等)。还有性别、年龄、地点等信息。

性别信息通过用户第三方社交账号登录得到。年龄信息通常由模型预测,通过机型、阅读时间分布等预估。

常驻地点来自用户授权访问位置信息,在位置信息的基础上通过传统聚类的方法拿到常驻点。

常驻点结合其他信息,可以推测用户的工作地点、出差地点、旅游地点。这些用户标签非常有助于推荐。

当然最简单的用户标签是浏览过的内容标签。但这里涉及到一些数据处理策略,主要包括:

  • 过滤噪声。通过停留时间短的点击,过滤标题党。
  • 惩罚热点。对用户在一些热门文章(如前段时间 PG One 的新闻)上的动作做降权处理。理论上,传播范围较大的内容,置信度会下降。
  • 时间衰减。用户兴趣会发生偏移,因此策略更偏向新的用户行为。因此,随着用户动作的增加,老的特征权重会随时间衰减,新动作贡献的特征权重会更大。
  • 惩罚展现。如果一篇推荐给用户的文章没有被点击,相关特征(类别,关键词,来源)权重会被惩罚。

当然同时,也要考虑全局背景,是不是相关内容推送比较多,以及相关的关闭和 dislike 信号等。

用户标签挖掘总体比较简单,主要还是刚刚提到的工程挑战。头条用户标签第一版是批量计算框架,流程比较简单,每天抽取昨天的日活用户过去两个月的动作数据,在 Hadoop 集群上批量计算结果。

但问题在于,随着用户高速增长,兴趣模型种类和其他批量处理任务都在增加,涉及到的计算量太大。

2014 年,批量处理几百万用户标签更新的 Hadoop 任务,当天完成已经开始勉强。

集群计算资源紧张很容易影响其他工作,集中写入分布式存储系统的压力也开始增大,并且用户兴趣标签更新延迟越来越高。

面对这些挑战,2014 年底今日头条上线了用户标签 Storm 集群流式计算系统。

改成流式之后,只要有用户动作更新就更新标签,CPU 代价比较小,可以节省 80% 的 CPU 时间,大大降低了计算资源开销。

同时,只需几十台机器就可以支撑每天数千万用户的兴趣模型更新,并且特征更新速度非常快,基本可以做到准实时。这套系统从上线一直使用至今。

当然,我们也发现并非所有用户标签都需要流式系统。像用户的性别、年龄、常驻地点这些信息,不需要实时重复计算,就仍然保留 daily 更新。

评估分析

上面介绍了推荐系统的整体架构,那么如何评估推荐效果好不好?有一句我认为非常有智慧的话,“一个事情没法评估就没法优化”。对推荐系统也是一样。

事实上,很多因素都会影响推荐效果。比如侯选集合变化,召回模块的改进或增加,推荐特征的增加,模型架构的改进,算法参数的优化等等。

评估的意义就在于,很多优化最终可能是负向效果,并不是优化上线后效果就会改进。

全面的评估推荐系统,需要完备的评估体系、强大的实验平台以及易用的经验分析工具。

所谓完备的体系就是并非单一指标衡量,不能只看点击率或者停留时长等,需要综合评估。

过去几年我们一直在尝试,能不能综合尽可能多的指标合成唯一的评估指标,但仍在探索中。目前,我们上线还是要由各业务比较资深的同学组成评审委员会深入讨论后决定。

很多公司算法做的不好,并非是工程师能力不够,而是需要一个强大的实验平台,还有便捷的实验分析工具,可以智能分析数据指标的置信度。

一个良好的评估体系建立需要遵循几个原则,首先是兼顾短期指标与长期指标。

我在之前公司负责电商方向的时候观察到,很多策略调整短期内用户觉得新鲜,但是长期看其实没有任何助益。

其次,要兼顾用户指标和生态指标。今日头条作为内容分发创作平台,既要为内容创作者提供价值,让他更有尊严的创作,也有义务满足用户,这两者要平衡。还有广告主利益也要考虑,这是多方博弈和平衡的过程。

另外,要注意协同效应的影响。实验中严格的流量隔离很难做到,要注意外部效应。

强大的实验平台非常直接的优点是,当同时在线的实验比较多时,可以由平台自动分配流量,无需人工沟通,并且实验结束流量立即回收,提高管理效率。

这能帮助公司降低分析成本,加快算法迭代效应,使整个系统的算法优化工作能够快速往前推进。

这是头条 A/B Test 实验系统的基本原理。首先我们会在离线状态下做好用户分桶,然后线上分配实验流量,将桶里用户打上标签,分给实验组。

举个例子,开一个 10% 流量的实验,两个实验组各 5%,一个 5% 是基线,策略和线上大盘一样,另外一个是新的策略。

实验过程中用户动作会被搜集,基本上是准实时,每小时都可以看到。但因为小时数据有波动,通常是以天为时间节点来看。动作搜集后会有日志处理、分布式统计、写入数据库,非常便捷。

在这个系统下工程师只需要设置流量需求、实验时间、定义特殊过滤条件,自定义实验组 ID。

系统可以自动生成:实验数据对比、实验数据置信度、实验结论总结以及实验优化建议。

当然,只有实验平台是远远不够的。线上实验平台只能通过数据指标变化推测用户体验的变化,但数据指标和用户体验存在差异,很多指标不能完全量化。很多改进仍然要通过人工分析,重大改进需要人工评估二次确认。

内容安全

最后要介绍今日头条在内容安全上的一些举措。头条现在已经是国内最大的内容创作与分发平台,必须越来越重视社会责任和行业领导者的责任。如果 1% 的推荐内容出现问题,就会产生较大的影响。

因此头条从创立伊始就把内容安全放在公司最高优先级队列。成立之初,它已经专门设有审核团队负责内容安全。

当时研发所有客户端、后端、算法的同学一共才不到 40 人,可见头条非常重视内容审核。

现在,今日头条的内容主要来源于两部分:

  • 具有成熟内容生产能力的 PGC 平台。
  • UGC 用户内容,如问答、用户评论、微头条。

这两部分内容需要通过统一的审核机制。如果是数量相对少的 PGC 内容,会直接进行风险审核,没有问题会大范围推荐。

UGC 内容需要经过一个风险模型的过滤,有问题的会进入二次风险审核。审核通过后,内容会被真正进行推荐。

这时如果收到一定量以上的评论或者举报负向反馈,还会再回到复审环节,有问题直接下架。

整个机制相对而言比较健全,作为行业领先者,在内容安全上,今日头条一直用最高的标准要求自己。

分享内容识别技术主要有鉴黄模型,俗模型以及谩骂模型。今日头条的低俗模型通过深度学习算法训练,样本库非常大,图片、文本同时分析。

这部分模型更注重召回率,准确率甚至可以牺牲一些。谩骂模型的样本库同样超过百万,召回率高达 95%+,准确率 80%+。如果用户经常出言不讳或者不当的评论,我们有一些惩罚机制。

泛低质识别涉及的情况非常多,像假新闻、黑稿、题文不符、标题党、内容质量低等等,这部分内容由机器理解是非常难的,需要大量反馈信息,包括其他样本信息比对。

目前低质模型的准确率和召回率都不是特别高,还需要结合人工复审,将阈值提高。目前最终的召回已达到 95%,这部分其实还有非常多的工作可以做。

头条人工智能实验室李航老师目前也在和密歇根大学共建科研项目,设立谣言识别平台。

以上是头条推荐系统的原理分享,希望未来得到更多的建议,帮助我们更好改进工作。

责任编辑:武晓燕 来源: 今日头条
相关推荐

2025-08-05 16:26:03

关联规则数据分析关联规则推荐

2025-08-05 11:56:09

相似性推荐推荐算法推荐

2025-08-05 16:19:48

SaaS开发SaaS安全SaaS

2025-08-05 15:15:19

Hadoop框架数据

2025-08-05 11:03:56

HadoopGoogle硬件

2025-08-05 09:10:24

浏览器服务器网络

2025-08-05 18:15:01

Docker底层宿主机

2025-08-05 17:05:44

2025-08-05 11:46:49

基于内容的推荐职位推荐集群

2025-08-05 11:22:24

高仿今日头条android源码

2025-08-05 10:45:13

今日头条文本推荐应用

2025-08-05 10:38:59

MySQLSQL数据库

2025-08-05 10:45:48

机器学习人工智能神经网络

2025-08-05 10:05:47

今日头条数据驱动使用数据

2025-08-05 08:29:30

MacOS操作系统算法

2025-08-05 09:10:25

UI设计经验

2025-08-05 11:36:09

浪潮

2025-08-05 14:53:54

Visual Stud

2025-08-05 07:27:08

HTTP代理网络

2025-08-05 21:31:24

区块链
点赞
收藏

51CTO技术栈公众号

霉菌性阴道炎有什么症状 iod什么意思 长期上夜班对身体有什么危害 全身水肿是什么原因引起的 吃什么对胃好养胃的食物
胆囊胆固醇结晶是什么 容貌是什么意思 中国的八大菜系是什么 121是什么意思 百合吃了有什么好处
嗓子疼吃什么水果好 大便是黑色的是什么原因 是什么数学符号 老花眼有什么症状 三个六代表什么意思
囊性包块是什么 什么叫根管治疗牙齿 头胀痛什么原因 cpc是什么意思 腿部发痒是什么原因引起的
吐鲁番为什么那么热hcv7jop6ns8r.cn 3岁小孩说话结巴是什么原因hcv9jop3ns8r.cn 积劳成疾的疾什么意思hcv9jop7ns4r.cn 火龙果和香蕉榨汁有什么功效hcv9jop2ns0r.cn 血糖高一日三餐吃什么东西最适合hcv8jop2ns9r.cn
清真是什么意思啊hcv7jop5ns1r.cn 可见一什么hcv7jop9ns0r.cn 门的单位是什么xinmaowt.com 总流口水是什么原因hcv8jop0ns3r.cn 文胸36码是什么尺寸hcv8jop7ns9r.cn
日安什么意思hcv8jop5ns6r.cn 手抖是什么情况hcv9jop0ns8r.cn 珑字五行属什么hcv9jop0ns1r.cn 甘草不能和什么一起吃hcv8jop5ns7r.cn 不想睡觉是什么原因hcv8jop9ns1r.cn
什么是性上瘾hcv7jop5ns4r.cn 尤物是什么意思hcv9jop0ns6r.cn 胃疼吃什么药好的快cj623037.com met什么意思hcv7jop9ns1r.cn mask是什么意思hcv9jop5ns3r.cn
百度