八一中文网

手机浏览器扫描二维码访问

机器学习是“让机器从数据中长本事”的技术(第3页)

巧妇难为无米之炊,数据就是机器学习的“米”。

- 数据收集:比如要做推荐系统,得收集用户的浏览记录、点击行为;要做疾病预测,得收集病人的病历、检查报告。

- 数据预处理:这步特别关键,就像淘米要去沙。包括:

- 处理缺失值:比如某个人的年龄没填,得想办法补上或删掉。

- 处理异常值:比如收入里突然出现一个“1亿”,明显不合理,得处理掉。

- 特征缩放:比如身高是“170cm”,体重是“60kg”,单位和数值范围不一样,得统一缩放(比如都缩到0-1之间),不然模型会“偏心”。

2. 特征工程:给数据“化妆”,让模型看得更清楚

“特征”就是数据里的关键信息。比如判断西瓜好坏,“色泽、根蒂、敲声”就是特征。特征工程是从原始数据里提炼出有用特征的过程,直接影响模型效果。

- 有时候要人工设计特征:比如把“日期”拆成“星期几”“是否节假日”。

- 有时候用算法自动提取特征:比如深度学习里的CNN,能自动从图像里提取“边缘、形状”这些特征,不用人类操心。

3. 模型训练:让机器“刷题涨本事”

选好算法(比如决策树、神经网络),把处理好的数据喂给它,机器就开始“学习”了。它会不断调整内部参数,让预测结果和真实情况越来越接近。

- 训练过程中,得注意过拟合和欠拟合:

- 欠拟合:模型太“笨”,连训练数据都没学好,比如把所有邮件都当成正常邮件。

- 过拟合:模型太“教条”,把训练数据里的噪声也学进去了,比如只认识训练过的那几张人脸,换张角度就不认识了。

解决方法也不少,比如“正则化”(给模型加约束,不让它学太细)、“增加数据量”“模型简化”等。

4. 模型评估:给机器“考试”打分

训练好的模型得测试一下准不准。常用的指标有:

- 准确率(Accuracy):预测对的比例,比如100个邮件,90个判对了,准确率就是90%。但它在“数据不平衡”时不准,比如垃圾邮件只有5%,模型全判正常,准确率也有95%,但没用。

热门小说推荐
安定的极化修行

安定的极化修行

大家的初始印象:大和守真是温柔、可爱、脾气还好。 安定:我也这么觉得。 直到某天: 欧啦欧啦欧啦!!! 哼哈哈哈……你就是大将吗? 喔~小心我杀了你哦,小猫咪。 大家:惊恐.jpg ———— 此文沿用花丸续的设定,是安定极化修行的过程。 ……然后修行修去了综漫:D 安定:说好的冲田君呢?那么大一个冲田君呢?这个栗子头抖s是个什么鬼!樱Saber又是什么鬼?!! 修行几站: 抖s王子的新刀 刀子精学呼吸法 武侦捡个付丧神 樱saber的圣遗物 当安定修行归来 ———— 有ooc,有私设,看同人文别带脑子。 无暗黑本丸及暗堕这种同人二设! cp清安,冲田组内销。 【重点】: 安定发色采用的是同人惯用,设定为画手太太们常用的蓝色。 一切不合您理解之处均为剧情需要。 如果踩雷请及时逃生,我们江湖有缘再见。...

鬼吹灯II

鬼吹灯II

鬼吹灯II情节跌宕起伏、扣人心弦,是一本情节与文笔俱佳的网游动漫小说,鬼吹灯II-本物天下霸唱-小说旗免费提供鬼吹灯II最新清爽干净的文字章节在线阅读和TXT下载。...

华娱之流量之战

华娱之流量之战

2014年,流量时代到来,四大三小顶流应运崛起。重生到这一年的许幸给自己定了第一个小目标:先把顶流格局改写为一大七小。都从南韩解约,都有好姐姐,还有灵活的上进心,通过努力奋斗,一打七不难吧!……“奋斗什么?早就给你安排好了。”“不是,我不能躺平,让我起来撕!”——————本书又名:《一开始我是想奋斗的》、《我确实奋斗了》、《我的剑也未尝不锋利》……...

春江逐月

春江逐月

罗有有前世为了赚钱拼了命,一朝重生,发现父亲本是富家子弟,却因恶毒女人一念之间人生被偷,而她的亲儿子却代替父亲过上流生活。为了父亲回到正轨,女主装傻充愣,拿回信物,让父亲离开海城,重回南家。本以为父亲成为南家老三,可以过几天安稳日子。没想到鸠占鹊巢的那一家子,总是要在人前挑事,特别是那假千金,心机的很。罗有有也不怕......

异界灵师

异界灵师

柳风晴命运坎坷,襁褓时的他被遗弃,后被少林方丈收养,皇帝死后,福王为抢夺武学至尊天地明经,进犯少林,少林被毁,柳风晴与福王同归于尽,却穿越到了另外一个充满灵气的世界,这个世界的人类以灵力作为能量源头,与万物共生,在新的世界,他将会有哪些奇幻的经历……...