月经老提前是什么原因| 女人左下眼皮跳是什么预兆| 肺气不足吃什么中成药| 医院建档是什么意思| 什么是试管婴儿| 一月30号是什么星座| 脚后跟疼是什么病| 祸不单行什么意思| 北极熊的毛是什么颜色| 眼睛为什么会长麦粒肿| 肠胃功能紊乱什么症状| 结核是什么病| fd是什么意思| 秦国是现在的什么地方| 肺炎是什么| 什么是保健食品| 合胞病毒是什么| 喝什么可以排便通畅| 肩周炎吃什么药最好| 为什么医生不推荐特立帕肽呢| 眼睛老是肿着是什么原因造成的| 剁椒鱼头属于什么菜系| 云指什么生肖| 好马不吃回头草是什么意思| 脾肾阳虚吃什么药最好| ab型血生的孩子是什么血型| 九二年属什么生肖| 什么药降肌酐| 吃完榴莲后不能吃什么| 荔枝和什么吃会中毒| 红细胞偏高是什么病| 小孩上火吃什么药| 人为什么会抑郁| 锴字五行属什么| 乙醚是什么| 韩语欧巴是什么意思| 黑色鸟是什么鸟| 公蚊子吃什么| 杏黄是什么颜色| 打嗝是什么病| 出来混迟早要还的什么意思| 什么桥下没有水脑筋急转弯| lady是什么意思| 海豹油有什么作用| 干眼症用什么药| 焦是什么意思| 人造石是什么材料做的| bc什么意思| 免疫系统由什么组成| 来月经头疼是什么原因| 紧急避孕药叫什么名字| 甘草长什么样| 长脸适合什么发型| 天机不可泄露是什么意思| 双脚冰凉是什么原因| 弱视什么意思| 梦见女鬼是什么意思| 绞股蓝有什么作用| 善存片什么时候吃最好| 查血脂挂什么科| cooc香水是什么牌子的| 桃子是什么形状| 耳石症是什么原因引起的| 不什么不什么的四字词语| 11月25是什么星座| 霸是什么生肖| 心肝火旺吃什么中成药| 肺火吃什么中成药| 跖围是什么意思| 彘是什么意思| 草芽是什么| 查黄体酮做什么检查| 煮牛肉放什么调料| 水厄痣是什么意思| 巨石强森是什么人种| 头出虚汗是什么原因引起的| hp检查是什么意思| 611是什么意思| 生小孩需要准备什么| 脑梗吃什么药最好| uvb是什么意思| 包头古代叫什么| 花都有什么花| 头晕是什么原因引起的| 军士长是什么军衔| 雅痞是什么意思| 头痛做什么检查| 什么药止汗效果最好| 暗渡陈仓是什么生肖| 马齿苋长什么样| 什么树没有叶| whatsapp是什么软件| 东北易帜是什么意思| 踩水是什么意思| 淋巴结节吃什么药最好| 耗儿鱼是什么鱼| 五行缺水是什么意思| 逼宫什么意思| 流产后吃什么补身体| 七月14号是什么星座| ad是什么缩写| 吃什么祛痰化痰最有效| 玄机是什么意思| 生长纹是什么| 脸书是什么意思| 流鼻血吃什么药| 牙龈上火是什么原因引起的| 肚子疼呕吐是什么原因引起的| 细菌性阴道炎用什么药效果好| 南瓜皮可以吃吗有什么作用| 梦见给死人烧纸钱是什么意思| 营救是什么意思| 什么东西最补肾| 才子是什么生肖| 鳞状上皮内高度病变是什么意思| 艾滋病简称什么| 喘不上来气是什么原因| 本科属于什么学位| 什么西瓜| 历久弥新的意思是什么| 牛肉炒什么| 十二指肠胃溃疡吃什么药| 樱桃泡酒有什么功效| 蚊子最怕什么| 女人为什么会得甲状腺| 六个点是什么意思| 外阴痒用什么洗| 正方形纸能折什么| 三庭五眼是什么意思| 眼睛痒流泪是什么原因| 梅毒是什么| 肛检是检查什么| 刚愎自负是什么意思| 咖啡拿铁是什么意思| 人鱼线是什么| 医学美容技术学什么| 一国两制什么时候提出的| 受精卵着床是什么意思| 总是想睡觉是什么原因| 为什么手会脱皮| 热毛巾敷眼睛有什么好处| 什么样的| 龟苓膏的原料是什么| 性格好是什么意思| 心重是什么意思| 卫衣是什么| 屁股疼是什么原因| 漫展是什么| 什么叫封闭针| 用盐洗脸有什么好处| 总打哈欠是什么原因| 喝中药可以吃什么水果| 治股癣用什么药最好| 7月13日是什么星座| 控制血糖吃什么食物| 乳腺结节看什么科| 9月9日什么星座| 红色加黄色等于什么颜色| 洁颜蜜是什么| 黄历冲生肖是什么意思| pbc是什么| 3月2日是什么星座| 玉对人身体健康有什么好处| 老鼠长什么样| 无为而治是什么意思| 沪深300是什么意思| 10.1什么星座| 神经是什么东西| 姐姐的孩子叫什么| 胸痛是什么情况| 大眼角痒是什么原因| 情面是什么意思| 糖尿病吃什么水果好| 清宫和无痛人流有什么区别| 双肺条索是什么意思| 神经衰弱是什么病| 什么是熊猫血型| 4月25号是什么星座| 什么就像什么一样| 蚯蚓用什么呼吸| 台湾有什么特产| wlw是什么意思| 愈合是什么意思| 人为什么要穿衣服| usd什么意思| 心脏跳的快什么原因| 停车坐爱枫林晚的坐是什么意思| 火车代表什么生肖| 磨砂膏是什么| 后羿射日什么意思| 手关节疼痛挂什么科| 红眼病有什么症状| 咳嗽吃什么食物好得最快最有效| des是什么意思| 脚常抽筋是什么原因| 海带什么人不能吃| visa是什么| 岂是什么意思| 嗓子不舒服吃什么水果| 神经是什么东西| avg是什么意思| 小腹痛男性什么原因| 各什么各什么| 乙肝五项第二项阳性是什么意思| 小强是什么意思| fw什么意思| 迪丽热巴什么星座| 女人喝红酒有什么好处| 银杏叶提取物治什么病| 决明子和什么搭配最好| 阴茎插入阴道什么感觉| 腰肌劳损有什么症状| 9月份怀孕预产期是什么时候| 吃什么减肚子上的赘肉最快| 早泄要吃什么药| 吃什么能增肥最快| 脚踩按摩垫有什么好处| 射手座是什么星象| 恭喜恭喜是什么意思| 生孩子前要注意什么| 一吃饭就吐是什么原因| 不靠谱是什么意思| 兄弟是什么生肖| 琳五行属什么| 心口窝疼挂什么科| 神经痛吃什么药| 专班是什么意思| 颈椎疼挂什么科| 眉毛旁边长痘痘是什么原因| 盐是什么味道| 麒麟臂什么意思| dikang是什么药| 针对性是什么意思| 阿斯伯格综合征是什么| 惊蛰什么意思| 胸腔积液吃什么药最有效| 曹操是什么星座| 私处瘙痒用什么药| 聪明的动物是什么生肖| 手淫过度有什么危害| 牙疼吃什么水果好| 美满霉素又叫什么名字| 吃什么容易便秘| 杀手锏是什么意思| hpd是什么意思| 紫癜挂什么科| 驴板肠是什么部位| 胡麻油是什么油| 手脚发抖是什么原因引起的| 什么叫打卡| 兰花象征着什么| 属狗和什么属相最配| 冬阴功是什么意思| today什么意思| 什么叫糙米| 日加一笔可以变成什么字| 国士无双是什么意思| 高血压中医叫什么| 什么松鼠| 甲鱼吃什么东西| 1976年属什么生肖| 彷徨是什么意思| 2023年五行属什么| 什么是比喻| 百度

【2018两会 改革新征程】肯尼亚记者:非洲国家享受“一带一路”倡议带来的红利

大数据
互联网的海量数据不可能靠人工一个个处理,只能依靠计算机批量处理。最初的做法是人为设定好一些规则,由机器来执行。但特征一多规则就很难制定,即使定下了规则也没法根据实际情况灵活变化。机器学习可以很好的解决以上问题,从一定程度上赋予了计算机以“学习”的能力,使得千人千面成为可能。
百度 截至沪深股市全天收盘,上证综指收报3,点,下跌点,跌幅%,成交额2,934亿元;深证成指收报10,点,下跌点,跌幅%,成交额3,419亿元;创业板指收报1,点,下跌点,跌幅%,成交额1,043亿元。

大数据时代里,互联网用户每天都会直接或间接使用到大数据技术的成果,直接面向用户的比如搜索引擎的排序结果,间接影响用户的比如网络游戏的流失用户预测、支付平台的欺诈交易监测等等。机器学习是大数据挖掘的一大基础,本文以机器学习为切入点,将笔者在 大 数据 技术实践时的一些经验与大家分享。

互联网的海量数据不可能靠人工一个个处理,只能依靠计算机批量处理。最初的做法是人为设定好一些规则,由机器来执行。比如明确指定计算机给男性、 30岁的用户推送汽车广告。很明显如此粗略的规则不会有好效果,因为对人群的定位不够精确。要提高精度必须增加对用户的特征描述。但特征一多规则就很难制定,即使定下了规则也没法根据实际情况灵活变化。机器学习可以很好的解决以上问题,从一定程度上赋予了计算机以“学习”的能力,使得千人千面成为可能。

图 1 面对大量的特征,人工难以确定使用的规则

有监督机器学习技术

机器学习以统计学为理论基础,利用算法让机器具有类似人类一般的自动“学习”能力,即对已知的训练数据做统计分析从而获得规律,再运用规律对未知数据做预测分析。机器学习主要包含四大类别: 有监督学习,无监督学习,半监督学习和增强学习。

有监督学习,顾名思义,是在“人类监督”下学习,要求训练数据既有特征也有目标,目标是人为设定好的。以文本分类为例,一篇文章的字、词、句、段是其特征(文本的内容是什么),文章的类别(时事、科技、娱乐等等)就是目标。训练集文章的类别是人为设定的,相当于明确告诉机器什么样的内容该属于什么类别,机器在此基础上总结规律。无监督学习就是数据只有特征没有目标,最常见的算法是聚类。聚类算法会把相似的样本聚集成一个子集,优点是数据无需人工标注,但缺点也很明显——无法给出子集的实际含义。半监督学习介于有监督学习和无监督学习之间,其训练集数据有一小部分是人工标注过的。增强学习强调基于环境而行动,在探索未知领域和遵从现有只是之间寻求平衡。

有监督学习的研究起步较早,方法比较成熟。在大多数应用场景中,我们希望机器输出的结果具有实际含义,比如文本分类就是让机器告诉我们一篇文章是时事还是科技类文章。这样的场景下有监督学习也更为适用。有监督学习主要包含回归分析和统计分类两大类算法。

回归分析——预估点击率的利器

回归分析建模的是自变量和因变量之间的相关关系(如图2所示),在机器学习领域,自变量是样本的特征向量,因变量是预测值。回归分析最经典的应用场景是广告点击率(CTR)预估。简单而言,CTR预估是根据用户数据和广告数据,估计用户点击某个广告的可能性大小。我们假设用户数据+广告数据和广告点击率之间的关系符合某个分布,使用回归分析方法在已有点击数据上拟合出该分布。达观科技在线上预测时就把用户数据和广告数据作为输出传给拟合出的分布,得到用户点击该广告的概率值。

 

图 2 回归分析示意图

统计分类——被广泛应用的机器学习方法

统计分类要解决的问题是,如何将一个样本点分到类别集合中的一个或多个类,比如图3所表示的就是将数据分为3个类。

图 3 统计分类示意图

现实场景中我们往往需要把数据分成不同的类别,以方便我们分析和使用,因而统计分类方法具有广阔的应用范围。达观数据团队开发的用户建模、内容审核系统、反作弊系统等都使用到了统计分类模型。比如反作弊系统,目的是区分用户行为是否作弊,抽象出来就是个分类问题:输入是用户的各种行为数据经过处理后得到的特征,输出只有两个类别——“作弊”和“非作弊”。接下来我就简单介绍一下***代表性的分类算法——支持向量机(Support Vector Machine, SVM),一窥机器学习的工作原理。SVM绝不是入门级的机器学习算法,选择介绍它是因为,机器学习需要解决的数据线性不可分、过拟合等问题,SVM都给出了比较可靠的解决方案,借此我们也可以对机器学习有个大概的认识。

理想情况下SVM的理论模型

SVM针对分类问题的前提假设直观易懂,由此推演出的模型求解过程也是顺理成章一气呵成。我们通常先从最简单的情况入手,假设数据是线性可分的。 SVM认为此时的***分类面,是使得样本集到分类面的最小几何距离***化的超平面,这个距离成为“间隔(margin)”。如图4所示,黑色实线就是***分类面,两边两条虚线之间的几何距离就是此时的***间隔。数据点离分类面越远,分类的置信度也越高。

图 4 SVM***分类面示意图

SVM假设线性分类面的函数形式为

(1)

鉴于篇幅关系,我们略去推导过程。在***化间隔的假设下,可以得到SVM的原目标函数为:

(2)

其中表示第i个样本的特征向量,是第i个样本的类标签,SVM令。由约束条件可知,样本点必然落在***间隔的边缘(图4中虚线)上或外面,通过推导分析最终可以知道,只有落在间隔边缘上的少量数据点决定了分类面,这些样本被称为支持向量,而其他的点没有任何作用。这一特性大大节省了求解SVM的计算量。

线性不可分情况的处理

按照达观数据的经验,真实环境的问题往往是线性不可分的,数据采集的时候也不可避免的会引入噪声。应对这两种情况只需对原始SVM模型做有限的一点改进。针对数据线性不可分的情况,SVM通过引入核函数(Kernel Function)将数据映射到高维空间来解决,图5直观的表示了映射的过程。核函数实际上是两个数据点在高维空间中的内积。它先在原空间进行计算再将结果映射到高维空间,避免了先把数据点映射到高维空间再计算所可能导致的维数灾难问题。核函数可以从容的处理包括***维在内的任何特征空间映射。

图 5 SVM核函数的作用原理图

SVM如何规避过拟合

过拟合(Overfitting)表现为在训练数据上模型的预测错误很低,在未知数据上预测错误却很高。图6的蓝色曲线代表训练错误,红色曲线代表真实错误,可以看到随着模型复杂度的升高,模型对训练数据的拟合程度越好(训练错误越低),但到了一定程度之后真实错误反而上升,即为过拟合。

图 6 过拟合

过拟合主要源于我们采集的训练样本带有噪声,有部分样本严重偏离其正常位置,统计学上称之为outlier。前面已经提到,决定SVM***分类面的只是占少数的支持向量,如果碰巧这些支持向量中存在outlier,而我们又要求SVM尽可能***的去拟合这样的数据,得到的分类面可能就会有问题。如图7所示,黑色加粗虚线代表***分类面,带黑圈的蓝色数据点代表outlier。可以看到outlier严重偏离了正常蓝色数据点的位置,所在位置又恰巧使其成为了支持向量,导致了最终的分类面(深红色实线)严重偏离***分类面。

责任编辑:Ophira 来源: 互联网分析沙龙
相关推荐

2025-08-05 10:27:03

人工智能AI机器学习

2025-08-05 15:24:24

人工智能

2025-08-05 09:18:33

安全策略安全管理威胁情报

2025-08-05 08:00:00

2025-08-05 12:44:14

机器学习数据挖掘

2025-08-05 09:45:54

数据分析互联网大数据

2025-08-05 09:13:14

程序员数据挖掘

2025-08-05 18:09:57

机器学习业务价值人工智能

2025-08-05 09:00:00

机器学习人工智能数据中心

2025-08-05 15:42:05

Python机器学习

2025-08-05 08:49:34

数据通信行业技能图

2025-08-05 14:08:02

机器学习数据挖掘

2025-08-05 11:11:52

数据挖掘机器学习Python

2025-08-05 14:01:37

Python数据挖掘机器学习

2025-08-05 16:54:38

2025-08-05 09:58:43

机器学习大数据技术算法

2025-08-05 10:12:21

机器学习数据映射

2025-08-05 08:57:31

机器学习电商数据挖掘

2025-08-05 09:31:22

2025-08-05 11:56:00

人工智能机器学习AI
点赞
收藏

51CTO技术栈公众号

鹿茸是鹿的什么部位 roma是什么牌子 胎儿左心室强光点是什么意思 胎儿颈部可见u型压迹什么意思 什么是英语自然拼读
糖衣炮弹什么意思 牙痛吃什么药最好 小蜘蛛吃什么 姓毛的男孩取什么名字好 愚昧是什么意思
豁出去了什么意思 什么叫真菌 低血压的人吃什么好 软骨炎是什么病 浮肿是什么原因造成的
骨质硬化是什么意思 月经不调吃什么药 什么药治高血压效果最好 精卫填海是什么意思 秦始皇为什么焚书坑儒
龙凤胎是什么意思hcv9jop6ns8r.cn 屈光和近视有什么区别gangsutong.com 放是什么偏旁hcv8jop8ns5r.cn 1965年属什么hcv8jop6ns1r.cn 拔牙后能吃什么hcv9jop1ns5r.cn
智商是什么意思hcv9jop6ns1r.cn 白带多要吃什么药hcv7jop7ns0r.cn 吃什么东西补血hcv8jop8ns7r.cn 什么病hcv7jop6ns0r.cn 奥美拉唑是治什么病的hcv9jop1ns3r.cn
梦见鞋丢了是什么意思hcv8jop0ns7r.cn 盖是什么意思hcv9jop4ns3r.cn 什么生日的人有佛缘sanhestory.com 梦见走错路是什么意思hcv9jop6ns6r.cn 做完胃镜可以吃什么youbangsi.com
灰指甲有什么症状hcv8jop3ns0r.cn 琉璃和玻璃有什么区别hcv9jop3ns4r.cn 焦虑是什么意思hcv9jop8ns1r.cn 脑梗是什么引起的hcv9jop1ns0r.cn 生旦净末丑分别指什么hcv7jop4ns5r.cn
百度