4月22日是什么星座| 七月二十九是什么星座| 广西是什么族| 拉肚子可以吃什么菜| 双排是什么意思| 6.5号是什么星座| 什么是内卷| 心肌缺血有什么症状| 鼻头出汗是什么原因| 头皮屑多是什么原因| 坐围和臀围有什么区别| 学五行属什么| 爱是什么词| 喜乐是什么意思| 瓜蒌是什么东西| 屈光和近视有什么区别| 中文是什么意思| 痰涎壅盛是什么意思| 减肥平台期什么意思| 39岁属什么| 产后42天复查挂什么科| 晚的反义词是什么| 一朵什么| 主动脉硬化是什么意思| 人流复查做什么检查| 小年是什么时候| 发烧去医院挂什么科| 树膏皮是什么皮| 什么是otc| 龙潭虎穴是什么生肖| 榆字五行属什么| 大战三百回合是什么意思| 周到是什么意思| 虚劳病是什么意思| 夜明珠是什么东西| 助教是干什么的| 血糖低吃什么| 疝气什么症状| 日加立念什么字| 脚踝肿是什么病| 摄取是什么意思| 什么肉好消化| 走马灯什么意思| 手绘是什么意思| 刘封为什么不救关羽| 什么是靶向治疗| 嘉靖为什么不杀海瑞| wi-fi是什么意思| 五毒是什么| 什么地流淌| 为什么会得肩周炎| 农历3月是什么月| 小金人车标是什么车| 国籍填什么| 五六月份是什么星座| 羊鞭是什么部位| 三月二十六是什么星座| mcv是什么意思| ox什么意思| 猕猴桃树长什么样| 樱桃补什么| 梦见自己的哥哥死了是什么意思| 身体发麻是什么原因| 子宫内膜息肉样增生是什么意思| 胃肠炎可以吃什么水果| 中将相当于什么级别| 64年出生属什么| 生理期什么意思| 俄罗斯为什么要打乌克兰| 骷髅头是什么牌子| 蜗牛什么梗| 右额头上有痣代表什么| 桂皮是什么树的皮| 阑尾炎可以吃什么水果| 鼻梁长痘是什么原因| 黄金的动物是什么生肖| 清秋是什么意思| 女性阴部痒是什么原因| 老鹰的绝症是什么| esrd医学上是什么意思| 决明子是什么东西| 谢谢谬赞是什么意思| 尿肌酐低说明什么| 天降甘霖什么意思| 25度穿什么衣服| 黄芪和什么搭配最好| 河豚吃什么食物| 子宫内膜异位症有什么症状| 脖子里面有结节是什么病| 土乞念什么| 梨涡是什么意思| 乳酸脱氢酶是什么| 骨折吃什么好| 脚踝肿是什么病| 去草原穿什么衣服拍照好看| 麻油跟香油什么区别| 八方来财是什么意思| 小肚子疼挂什么科| 孕激素是什么意思| 什么树最值钱| 什么人容易得小脑萎缩| 体检需要带什么| 鬼剃头是因为什么原因引起的| 脆生生的什么| 钢镚是什么意思| 社康是什么| 休克是什么意思| 道德绑架是什么意思| 龟头发红是什么原因| 什么叫个性强| 三尖瓣反流是什么意思| 低密度脂蛋白胆固醇偏高是什么意思| 不是什么| 疝气是什么病| 高亢是什么意思| 儿童说话不清楚挂什么科| 郭富城什么星座| 高密度脂蛋白低是什么原因| 英语四级什么时候报名| 锦绣未央什么意思| 文玩是什么| 肌酐300多属于什么期| 什么是黑咖啡| 包茎挂什么科| 语文是什么| 医保是什么| 代谢慢是什么原因| 中国最早的文字是什么| 舌自心念什么| 毁三观是什么意思啊| 鹞是什么意思| 腿上有青筋是什么原因| 蓝天白云是什么生肖| 大炮是什么| 什么降胆固醇| 一片冰心在玉壶是什么意思| 生抽和酱油有什么区别| 天鹅吃什么| 右眼睛跳是什么预兆| 股票解禁是什么意思| 放荡不羁爱自由什么意思| 三焦是什么| 莆田荔枝什么时候成熟| 阿托伐他汀钙片治什么病| 虹膜是什么| 怀孕呕吐吃什么可以缓解| 断掌有什么说法| 猕猴桃什么时候成熟| 落地签是什么意思| 小二是什么意思| 南红是什么| 亥时是什么时候| 细菌性阴道炎用什么洗液| 拍黄瓜什么意思| 晚上睡觉磨牙是什么原因| 便溏是什么原因引起的| 女性肝阳上亢吃什么药| 摩羯座哭了代表什么| 异位妊娠是什么意思| 黄连膏有什么功效和作用| 有眼屎用什么眼药水| 医学ac是什么意思| 大蒜吃多了有什么坏处| 驻京办是干什么的| 梦见车丢了是什么征兆| 狗拉肚子吃什么药| 茉莉花茶适合什么季节喝| 经常吐是什么原因| 什么是六合| 经期同房会有什么后果| 血常规异常是什么意思| 子宫痉挛是什么症状| 社招是什么意思| 卫衣是什么| 女孩为什么难得午时贵| 夜宵和宵夜有什么区别| 1978年是什么命| 初中什么时候开学| 导管是什么| 口角炎缺乏什么维生素| 茄子吃了有什么好处| 糖耐主要是检查什么| cfu是什么意思| 豚鼠吃什么| 送荷花的寓意是什么| 九死一生是指什么生肖| 重阳节吃什么好| 脂蛋白是什么意思| 什么叫封闭针| 硬盘是什么意思| 做造影对身体有什么伤害| 国家是什么| 吃什么对脑血管好| 肠胃炎有什么症状| 培坤丸有什么作用功效| 扁桃体发炎可以吃什么水果| 津津有味什么意思| 什么是强直性脊柱炎| 尿多是什么原因女性| 早上屁多是什么原因造成的| 恋物癖是什么| 鸭子炖汤和什么一起炖最有营养| 亲子鉴定挂什么科| 不由自主的摇头是什么病| 什么叫npc| 蔡明是什么民族| 尿道炎症吃什么药好| 拔完智齿可以吃什么| dh什么意思| 吃鸡蛋补什么| 焦虑症是什么原因引起的| 左眉毛跳是什么预兆| 谷草谷丙偏高是什么意思| 补肾壮阳吃什么| pigeon是什么牌子自行车| 吃什么药可以延长性功能| 护照免签是什么意思| 酸奶有什么营养价值| 轻度脑萎缩是什么意思| 羊和什么生肖最配| 瞬移是什么意思| 尿酸高会引发什么疾病| 坐班是什么意思| 正军级是什么级别| 漫山遍野是什么生肖| 医疗行业五行属什么| 阑尾炎吃什么药效果好| 奇经八脉指的是什么| 1964年是什么生肖| 亚子什么意思| 什么酒不能喝脑筋急转弯| snr是什么意思| 查甲功挂什么科| 大腿根部痒是什么原因| 月经前几天是什么期| 头孢不能和什么一起吃| 放疗后吃什么恢复快| 吃什么可以缓解孕吐恶心| 红虫是什么的幼虫| 什么是代孕| 3个土念什么| 手串19颗代表什么意思| 什么是动物奶油| 孕酮低吃什么补得快| 心率低有什么危害| 失眠缺什么维生素| 世界上最大的山是什么山| 燃气泄露是什么味道| 足跟疼痛用什么药| 啵是什么意思| 百丽鞋属于什么档次| 蜂蜜什么时候喝最佳| 什么是黑色素瘤| hyper是什么意思| 高光是什么意思| 眼睛总是干涩是什么原因| 什么去湿气| 亲和力是什么意思| 科学家是干什么的| 平痛新又叫什么| 耳朵长疙瘩是什么原因| 地龙是什么动物| 容祖儿老公叫什么名字| 山麻雀吃什么| 百度

全球最长寿老人去世享年117岁 长寿秘诀是吃鸡蛋

大数据
美团的团购系统中大量地应用到了机器学习和数据挖掘技术,例如个性化推荐、筛选 排序、搜索排序、用户建模等等,为公司创造了巨大的价值。本文主要介绍在美团的推荐与个性化团队实践中的数据清洗与特征挖掘方法。
百度 文章称,中国在经济上变得越来越重要。

背景

随着美团交易规模的逐步增大,积累下来的业务数据和交易数据越来越多,这些数据是美团做为一个团购平台最宝贵的财富。通过对这些数据的分析和挖掘, 不仅能给美团业务发展方向提供决策支持,也为业务的迭代指明了方向。目前在美团的团购系统中大量地应用到了机器学习和数据挖掘技术,例如个性化推荐、筛选 排序、搜索排序、用户建模等等,为公司创造了巨大的价值。本文主要介绍在美团的推荐与个性化团队实践中的数据清洗与特征挖掘方法。

综述

如上图所示是一个经典的机器学习问题框架图。数据清洗和特征挖掘的工作是在灰色框中框出的部分,即“数据清洗=>特征,标注数据生成=>模型学习=>模型应用”中的前两个步骤

灰色框中蓝色箭头对应的是离线处理部分。主要工作是:

  • 从原始数据,如文本、图像或者应用数据中清洗出特征数据和标注数据。
  • 对清洗出的特征和标注数据进行处理,例如样本采样,样本调权,异常点去除,特征归一化处理,特征变化,特征组合等过程。最终生成的数据主要是供模型训练使用。

灰色框中绿色箭头对应的是在线处理的部分。所做的主要工作和离线处理的类似,主要的区别在于1.不需要清洗标注数据,只需要处理得到特征数据,在线模型使用特征数据预测出样本可能的标签。2.最终生成数据的用处,最终生成的数据主要用于模型的预测,而不是训练。

在离线的处理部分,可以进行较多的实验和迭代,尝试不同的样本采样、样本权重、特征处理方法、特征组合方法等,最终得到一个最优的方法,在离线评估得到好的结果后,最终将确定的方案在线上使用。

另外,由于在线和离线环境不同,存储数据、获取数据的方法存在较大的差异。例如离线数据获取可以将数据存储在Hadoop,批量地进行分析处理等操 作,并且容忍一定的失败。而在线服务获取数据需要稳定、延时小等,可以将数据建入索引、存入KV存储系统等。后面在相应的部分会详细地介绍。

本文以点击下单率预测为例,结合实例来介绍如何进行数据清洗和特征处理。首先介绍下点击下单率预测任务,其业务目标是提高团购用户的用户体验,帮助 用户更快更好地找到自己想买的单子。这个概念或者说目标看起来比较虚,我们需要将其转换成一个技术目标,便于度量和实现。最终确定的技术目标是点击下单率 预估,去预测用户点击或者购买团购单的概率。我们将预测出来点击或者下单率高的单子排在前面,预测的越准确,用户在排序靠前的单子点击、下单的就越多,省 去了用户反复翻页的开销,很快就能找到自己想要的单子。离线我们用常用的衡量排序结果的AUC指标,在线的我们通过ABTest来测试算法对下单率、用户 转化率等指标的影响。

特征使用方案

在确定了目标之后,下一步,我们需要确定使用哪些数据来达到目标。需要事先梳理哪些特征数据可能与用户是否点击下单相关。我们可以借鉴一些业务经 验,另外可以采用一些特征选择、特征分析等方法来辅助我们选择。具体的特征选择,特征分析等方法我们后面会详细介绍。从业务经验来判断,可能影响用户是否 点击下单的因素有:

  • 距离,很显然这是一个很重要的特征。如果购买一个离用户距离较远的单子,用户去消费这个单子需要付出很多的代价。 当然,也并不是没有买很远单子的用户,但是这个比例会比较小。
  • 用户历史行为,对于老用户,之前可能在美团有过购买、点击等行为。
  • 用户实时兴趣。
  • 单子质量,上面的特征都是比较好衡量的,单子质量可能是更复杂的一个特征。
  • 是否热门,用户评价人数,购买数等等。

在确定好要使用哪些数据之后,我们需要对使用数据的可用性进行评估,包括数据的获取难度,数据的规模,数据的准确率,数据的覆盖率等,

  • 数据获取难度

例如获取用户id不难,但是获取用户年龄和性别较困难,因为用户注册或者购买时,这些并不是必填项。即使填了也不完全准确。这些特征可能是通过额外的预测模型预测的,那就存在着模型精度的问题。

  • 数据覆盖率

数据覆盖率也是一个重要的考量因素,例如距离特征,并不是所有用户的距离我们都能获取到。PC端的就没有距离,还有很多用户禁止使用它们的地理位置信息等。

用户历史行为,只有老用户才会有行为。

用户实时行为,如果用户刚打开app,还没有任何行为,同样面临着一个冷启动的问题。

  • 数据的准确率

单子质量,用户性别等,都会有准确率的问题。

特征获取方案

Ok,在选定好要用的特征之后,我们需要考虑一个问题。就是这些数据从哪可以获取?只有获取了这些数据我们才能用上。否则,提一个不可能获取到的特征,获取不到,提了也是白提。下面就介绍下特征获取方案。

离线特征获取方案离线可以使用海量的数据,借助于分布式文件存储平台,例如HDFS等,使用例如MapReduce,Spark等处理工具来处理海量的数据等。

在线特征获取方案

在线特征比较注重获取数据的延时,由于是在线服务,需要在非常短的时间内获取到相应的数据,对查找性能要求非常高,可以将数据存储在索引、kv存储等。而查找性能与数据的数据量会有矛盾,需要折衷处理,我们使用了 特征分层获取方案 ,如下图所示。

出于性能考虑。在粗排阶段,使用更基础的特征,数据直接建入索引。精排阶段,再使用一些个性化特征等。

特征与标注数据清洗

在了解特征数据放在哪儿、怎样获取之后。下一步就是考虑如何处理特征和标注数据了。下面3节都是主要讲的特征和标注处理方法

标注数据清洗

首先介绍下如何清洗特征数据,清洗特征数据方法可以分为离线清洗和在线清洗两种方法。

  • 离线清洗数据

离线清洗优点是方便评估新特征效果,缺点是实时性差,与线上实时环境有一定误差。对于实时特征难以训练得到恰当的权重。

  • 在线清洗数据

在线清洗优点是实时性强,完全记录的线上实际数据,缺点是新特征加入需要一段时间做数据积累。

样本采样与样本过滤

特征数据只有在和标注数据合并之后,才能用来做为模型的训练。下面介绍下如何清洗标注数据。主要是数据采样和样本过滤。

数据采样,例如对于分类问题:选取正例,负例。对于回归问题,需要采集数据。对于采样得到的样本,根据需要,需要设定样本权重。当模型不能使用全部的数据来训练时,需要对数据进行采样,设定一定的采样率。采样的方法包括随机采样,固定比例采样等方法。

除了采样外,经常对样本还需要进行过滤,包括

1.结合业务情况进行数据的过滤,例如去除crawler抓取,spam,作弊等数据。

2.异常点检测,采用异常点检测算法对样本进行分析,常用的异常点检测算法包括

  • 偏差检测,例如聚类,最近邻等。
  • 基于统计的异常点检测算法

例如极差,四分位数间距,均差,标准差等,这种方法适合于挖掘单变量的数值型数据。全距(Range),又称极差,是用来表示统计资料中的变异量数 (measures of variation) ,其最大值与最小值之间的差距;四分位距通常是用来构建箱形图,以及对概率分布的简要图表概述。

  • 基于距离的异常点检测算法,主要通过距离方法来检测异常点,将数据集中与大多数点之间距离大于某个阈值的点视为异常点,主要使用的距离度量方法有绝对距离 ( 曼哈顿距离 ) 、欧氏距离和马氏距离等方法。
  • 基于密度的异常点检测算法,考察当前点周围密度,可以发现局部异常点,例如LOF算法

特征分类

在分析完特征和标注的清洗方法之后,下面来具体介绍下特征的处理方法,先对特征进行分类,对于不同的特征应该有不同的处理方法。

根据不同的分类方法,可以将特征分为(1)Low level特征和High level特征。(2)稳定特征与动态特征。(3)二值特征、连续特征、枚举特征。

Low level特征是较低级别的特征,主要是原始特征,不需要或者需要非常少的人工处理和干预,例如文本特征中的词向量特征,图像特征中的像素点,用户id,商品id等。Low level特征一般维度比较高,不能用过于复杂的模型。High level特征是经过较复杂的处理,结合部分业务逻辑或者规则、模型得到的特征,例如人工打分,模型打分等特征,可以用于较复杂的非线性模型。Low level 比较针对性,覆盖面小。长尾样本的预测值主要受high level特征影响。 高频样本的预测值主要受low level特征影响。

稳定特征是变化频率(更新频率)较少的特征,例如评价平均分,团购单价格等,在较长的时间段内都不会发生变化。动态特征是更新变化比较频繁的特征, 有些甚至是实时计算得到的特征,例如距离特征,2小时销量等特征。或者叫做实时特征和非实时特征。针对两类特征的不同可以针对性地设计特征存储和更新方 式,例如对于稳定特征,可以建入索引,较长时间更新一次,如果做缓存的话,缓存的时间可以较长。对于动态特征,需要实时计算或者准实时地更新数据,如果做 缓存的话,缓存过期时间需要设置的较短。

二值特征主要是0/1特征,即特征只取两种值:0或者1,例如用户id特征:目前的id是否是某个特定的id,词向量特征:某个特定的词是否在文章 中出现等等。连续值特征是取值为有理数的特征,特征取值个数不定,例如距离特征,特征取值为是0~正无穷。枚举值特征主要是特征有固定个数个可能值,例如 今天周几,只有7个可能值:周1,周2,...,周日。在实际的使用中,我们可能对不同类型的特征进行转换,例如将枚举特征或者连续特征处理为二值特征。 枚举特征处理为二值特征技巧:将枚举特征映射为多个特征,每个特征对应一个特定枚举值,例如今天周几,可以把它转换成7个二元特征:今天是否是周一,今天 是否是周二,...,今天是否是周日。连续值处理为二值特征方法:先将连续值离散化(后面会介绍如何离散化),再将离散化后的特征切分为N个二元特征,每 个特征代表是否在这个区间内。

特征处理与分析

在对特征进行分类后,下面介绍下对特征常用的处理方法。包括1.特征归一化,离散化,缺省值处理。2.特征降维方法。3.特征选择方法等。

特征归一化,离散化,缺省值处理

主要用于单个特征的处理。

  • 归一化不同的特征有不同的取值范围,在有些算法中,例如线性模型或者距离相关的模型像聚类模型、knn模型等,特征的取值范围会对最终的 结果产生较大影响,例如二元特征的取值范围为[0,1],而距离特征取值可能是[0,正无穷),在实际使用中会对距离进行截断,例如 [0,3000000],但是这两个特征由于取值范围不一致导致了模型可能会更偏向于取值范围较大的特征,为了平衡取值范围不一致的特征,需要对特征进行 归一化处理,将特征取值归一化到[0,1]区间。常用的归一化方法包括1.函数归一化,通过映射函数将特征取值映射到[0,1]区间,例如最大最小值归一 化方法,是一种线性的映射。还有通过非线性函数的映射,例如log函数等。2.分维度归一化,可以使用最大最小归一化方法,但是最大最小值选取的是所属类 别的最大最小值,即使用的是局部最大最小值,不是全局的最大最小值。3.排序归一化,不管原来的特征取值是什么样的,将特征按大小排序,根据特征所对应的 序给予一个新的值。
  • 离散化在上面介绍过连续值的取值空间可能是无穷的,为了便于表示和在模型中处理,需要对连续值特征进行离散化处理。 常用的离散化方法包括等值划分和等量划分。等值划分是将特征按照值域进行均分,每一段内的取值等同处理。例如某个特征的取值范围为[0,10],我们可以 将其划分为10段,[0,1),[1,2),...,[9,10)。等量划分是根据样本总数进行均分,每段等量个样本划分为1段。例如距离特征,取值范围 [0,3000000],现在需要切分成10段,如果按照等比例划分的话,会发现绝大部分样本都在第1段中。使用等量划分就会避免这种问题,最终可能的切 分是[0,100),[100,300),[300,500),..,[10000,3000000],前面的区间划分比较密,后面的比较稀疏。
  • 缺省值处理有些特征可能因为无法采样或者没有观测值而缺失,例如距离特征,用户可能禁止获取地理位置或者获取地理位置失败,此时需要对这些特征做特殊的处理,赋予一个缺省值。缺省值如何赋予,也有很多种方法。例如单独表示,众数,平均值等。

特征降维

在介绍特征降维之前,先介绍下特征升维。在机器学习中,有一个VC维理论。根据VC维理论,VC维越高,打散能力越强,可容许的模型复杂度越高。在 低维不可分的数据,映射到高维是可分。可以想想,给你一堆物品,人脑是如何对这些物品进行分类,依然是找出这些物品的一些特征,例如:颜色,形状,大小, 触感等等,然后根据这些特征对物品做以归类,这其实就是一个先升维,后划分的过程。比如我们人脑识别香蕉。可能首先我们发现香蕉是黄色的。这是在颜色这个 维度的一个切分。但是很多东西都是黄色的啊,例如哈密瓜。那么怎么区分香蕉和哈密瓜呢?我们发现香蕉形状是弯曲的。而哈密瓜是圆形的,那么我们就可以用形 状来把香蕉和哈密瓜划分开了,即引入一个新维度:形状,来区分。这就是一个从“颜色”一维特征升维到二维特征的例子。

那问题来了,既然升维后模型能力能变强,那么是不是特征维度越高越好呢?为什么要进行特征降维&特征选择?主要是出于如下考虑:1. 特征维数越高,模型越容易过拟合,此时更复杂的模型就不好用。2. 相互独立的特征维数越高,在模型不变的情况下,在测试集上达到相同的效果表现所需要的训练样本的数目就越大。 3. 特征数量增加带来的训练、测试以及存储的开销都会增大。4.在某些模型中,例如基于距离计算的模型KMeans,KNN等模型,在进行距离计算时,维度过 高会影响精度和性能。5.可视化分析的需要。在低维的情况下,例如二维,三维,我们可以把数据绘制出来,可视化地看到数据。当维度增高时,就难以绘制出来 了。在机器学习中,有一个非常经典的维度灾难的概念。用来描述当空间维度增加时,分析和组织高维空间,因体积指数增加而遇到各种问题场景。例如,100个 平均分布的点能把一个单位区间以每个点距离不超过0.01采样;而当维度增加到10后,如果以相邻点距离不超过0.01小方格采样单位超一单位超正方体, 则需要10^20 个采样点。

正是由于高维特征有如上描述的各种各样的问题,所以我们需要进行特征降维和特征选择等工作。特征降维常用的算法有PCA,LDA等。特征降维的目标是将高维空间中的数据集映射到低维空间数据,同时尽可能少地丢失信息,或者降维后的数据点尽可能地容易被区分

  • PCA算法通过协方差矩阵的特征值分解能够得到数据的主成分,以二维特征为例,两个特征之间可能存在线性关系(例如运动的时速和秒速度),这样就造成了第二维信息是冗余的。PCA的目标是发现这种特征之间的线性关系,并去除。
  • LDA算法考虑label,降维后的数据点尽可能地容易被区分

特征选择

特征选择的目标是寻找最优特征子集。特征选择能剔除不相关(irrelevant)或冗余(redundant )的特征,从而达到减少特征个数,提高模型精确度,减少运行时间的目的。另一方面,选取出真正相关的特征简化模型,协助理解数据产生的过程。

特征选择的一般过程如下图所示:

主要分为产生过程,评估过程,停止条件和验证过程。

特征选择-产生过程和生成特征子集方法

  • 完全搜索(Complete)
    • 广度优先搜索( Breadth First Search ):广度优先遍历特征子空间。枚举所有组合,穷举搜索,实用性不高。
    • 分支限界搜索( Branch and Bound ):穷举基础上加入分支限界。例如:剪掉某些不可能搜索出比当前最优解更优的分支。
    • 其他,如定向搜索 (Beam Search ),最优优先搜索 ( Best First Search )等
  • 启发式搜索(Heuristic)
    • 序列前向选择( SFS , Sequential Forward Selection ):从空集开始,每次加入一个选最优。
    • 序列后向选择( SBS , Sequential Backward Selection ):从全集开始,每次减少一个选最优。
    • 增L去R选择算法 ( LRS , Plus-L Minus-R Selection ):从空集开始,每次加入L个,减去R个,选最优(L>R)或者从全集开始,每次减去R个,增加L个,选最优(L<R)
    • 其他如双向搜索( BDS , Bidirectional Search ),序列浮动选择( Sequential Floating Selection )等
  • 随机搜索(Random)
    • 随机产生序列选择算法(RGSS, Random Generation plus Sequential Selection):随机产生一个特征子集,然后在该子集上执行SFS与SBS算法。
    • 模拟退火算法( SA, Simulated Annealing ):以一定的概率来接受一个比当前解要差的解,而且这个概率随着时间推移逐渐降低
    • 遗传算法( GA, Genetic Algorithms ):通过交叉、突变等操作繁殖出下一代特征子集,并且评分越高的特征子集被选中参加繁殖的概率越高。

随机算法共同缺点:依赖随机因素,有实验结果难重现。

特征选择-有效性分析

对特征的有效性进行分析,得到各个特征的特征权重,根据是否与模型有关可以分为1.与模型相关特征权重,使用所有的特征数据训练出来模型,看在模型 中各个特征的权重,由于需要训练出模型,模型相关的权重与此次学习所用的模型比较相关。不同的模型有不同的模型权重衡量方法。例如线性模型中,特征的权重 系数等。2.与模型无关特征权重。主要分析特征与label的相关性,这样的分析是与这次学习所使用的模型无关的。与模型无关特征权重分析方法包括 (1)交叉熵,(2)Information Gain,(3)Odds ratio,(4)互信息,(5)KL散度等

特征监控

在机器学习任务中,特征非常重要。

个人经验,80%的效果由特征带来。下图是随着特征数的增加,最终模型预测值与实际值的相关系数变化。

对于重要的特征进行监控与有效性分析,了解模型所用的特征是否存在问题,当某个特别重要的特征出问题时,需要做好备案,防止灾难性结果。需要建立特征有效性的长效监控机制

我们对关键特征进行了监控,下面特征监控界面的一个截图。通过监控我们发现有一个特征的覆盖率每天都在下降,与特征数据提供方联系之后,发现特征数据提供方的数据源存在着问题,在修复问题之后,该特征恢复正常并且覆盖率有了较大提升。

在发现特征出现异常时,我们会及时采取措施,对服务进行降级处理,并联系特征数据的提供方尽快修复。对于特征数据生成过程中缺乏监控的情况也会督促做好监控,在源头解决问题。

机器学习InAction系列讲座介绍:结合美团在机器学习上的实践,我们进行一个实战(InAction)系列的介绍(带“机器学习 InAction系列”标签的5篇文章),介绍机器学习在解决问题的实战中所需的基本技术、经验和技巧。本文主要介绍了数据清洗与特征处理,其他四篇文章主要介绍了机器学习解决问题流程和模型训练、模型优化等工作。

责任编辑:Ophira 来源: 美团点评技术团队
相关推荐

2025-08-05 09:18:47

优化实践

2025-08-05 15:50:23

深度学习工程实践技术

2025-08-05 01:22:00

2025-08-05 14:08:02

机器学习数据挖掘

2025-08-05 12:23:28

神经网络优化

2025-08-05 09:10:00

算法人工智能技术

2025-08-05 11:11:52

数据挖掘机器学习Python

2025-08-05 14:01:37

Python数据挖掘机器学习

2025-08-05 16:54:38

2025-08-05 11:04:56

数据库运维智能

2025-08-05 13:11:58

技术美团

2025-08-05 13:10:39

美团点评Kubernetes集群管理

2025-08-05 10:20:00

云原生系统实践

2025-08-05 21:42:20

美团插件技术

2025-08-05 15:46:06

数据视频技术

2025-08-05 12:00:48

异构业务实践

2025-08-05 16:41:19

机器学习人工智能IT

2025-08-05 10:08:00

DBA美团SQL

2025-08-05 10:35:12

机器学习数据平台

2025-08-05 19:23:13

点赞
收藏

51CTO技术栈公众号

鼻子旁边有痣代表什么 路由器坏了有什么症状 胃糜烂吃什么药 五不遇时是什么意思 无利起早是什么生肖
什么是叶黄素 女人吃鹅蛋有什么好处 8.3是什么星座 男孩取什么名字好听又有贵气 什么时间人流
金钱能买来什么但买不来什么 小腿酸软无力是什么原因 kys什么意思 一什么月光 八项规定的内容是什么
血脂和血糖有什么区别 指甲月牙代表什么意思 最好的油是什么油 盐酸安罗替尼胶囊主要治疗什么 吃什么可以让胸部变大
地中海是什么意思bfb118.com 梦到抓到鱼是什么意思zhongyiyatai.com 结婚25年属于什么婚hcv7jop9ns5r.cn 错构瘤是什么gangsutong.com 芥酸对身体有什么危害hcv8jop3ns0r.cn
鱼可以吃什么naasee.com 单位时间是什么意思hcv7jop6ns2r.cn 感恩节是什么时候hcv9jop0ns2r.cn 输卵管囊肿是什么原因引起的hcv9jop8ns0r.cn 蚊子喜欢什么味道hcv8jop1ns8r.cn
甲状腺分泌什么激素hcv8jop3ns1r.cn 刘三姐是什么生肖hcv7jop6ns8r.cn 吃百家饭是什么意思hcv9jop4ns8r.cn mv是什么单位hcv8jop2ns7r.cn 右脸突然肿了是什么原因hcv8jop7ns0r.cn
情感障碍是什么意思hcv8jop5ns0r.cn 最短的季节是什么hcv8jop3ns6r.cn 吃什么补脑子hcv9jop0ns4r.cn 鳞状上皮炎症反应性改变是什么意思hcv9jop3ns9r.cn 益生菌治什么病jinxinzhichuang.com
百度