3优中文

手机浏览器扫描二维码访问

机器学习是“让机器从数据中长本事”的技术(第3页)

巧妇难为无米之炊,数据就是机器学习的“米”。

- 数据收集:比如要做推荐系统,得收集用户的浏览记录、点击行为;要做疾病预测,得收集病人的病历、检查报告。

- 数据预处理:这步特别关键,就像淘米要去沙。包括:

- 处理缺失值:比如某个人的年龄没填,得想办法补上或删掉。

- 处理异常值:比如收入里突然出现一个“1亿”,明显不合理,得处理掉。

- 特征缩放:比如身高是“170cm”,体重是“60kg”,单位和数值范围不一样,得统一缩放(比如都缩到0-1之间),不然模型会“偏心”。

2. 特征工程:给数据“化妆”,让模型看得更清楚

“特征”就是数据里的关键信息。比如判断西瓜好坏,“色泽、根蒂、敲声”就是特征。特征工程是从原始数据里提炼出有用特征的过程,直接影响模型效果。

- 有时候要人工设计特征:比如把“日期”拆成“星期几”“是否节假日”。

- 有时候用算法自动提取特征:比如深度学习里的CNN,能自动从图像里提取“边缘、形状”这些特征,不用人类操心。

3. 模型训练:让机器“刷题涨本事”

选好算法(比如决策树、神经网络),把处理好的数据喂给它,机器就开始“学习”了。它会不断调整内部参数,让预测结果和真实情况越来越接近。

- 训练过程中,得注意过拟合和欠拟合:

- 欠拟合:模型太“笨”,连训练数据都没学好,比如把所有邮件都当成正常邮件。

- 过拟合:模型太“教条”,把训练数据里的噪声也学进去了,比如只认识训练过的那几张人脸,换张角度就不认识了。

解决方法也不少,比如“正则化”(给模型加约束,不让它学太细)、“增加数据量”“模型简化”等。

4. 模型评估:给机器“考试”打分

训练好的模型得测试一下准不准。常用的指标有:

- 准确率(Accuracy):预测对的比例,比如100个邮件,90个判对了,准确率就是90%。但它在“数据不平衡”时不准,比如垃圾邮件只有5%,模型全判正常,准确率也有95%,但没用。

热门小说推荐
万古第一鼎

万古第一鼎

我有一鼎,可逆转乾坤,诛天灭地,弑神斩仙、镇压世间万物!天若阻我,我便破开这天!地若挡我,我便踏碎这地!我宋平安,一人一鼎一兽亦可无敌于世间!......

1949璃院繁星

1949璃院繁星

1949璃院繁星情节跌宕起伏、扣人心弦,是一本情节与文笔俱佳的都市言情小说,1949璃院繁星-喜欢潮汐龙的利普顿-小说旗免费提供1949璃院繁星最新清爽干净的文字章节在线阅读和TXT下载。...

我才不是药渣

我才不是药渣

野生老虎下山乱逛,被林业局诱捕。专家认定这是一只体格健壮的未成年雄性东北虎,具有极高的繁育价值,将送往国家级虎群保护中心。‘中心’内有不少虎妞、虎姐、虎妻、未亡虎,且吃喝不愁,养尊处优,啥都不缺,独缺精壮野汉子。虎头虎脑的小虎送进去,会被精心饲养长大,再被榨成憔悴‘药渣’,为虎群繁衍作出必要的贡献。“这故事有什么隐喻吗?”被逮住的周青峰小脸发白,硬撑的大喊,“吓唬谁呢?我只想混日子,才不会变成‘药渣’。”...

七天七夜

七天七夜

苏尔穿越到一本《七天七夜》的小说里,一开始他以为是本禁文,为了生存,每天造作到飞起。后来的后来—— 我都浪出了天际,你告诉我这其实只是本无限恐怖小说?!...

欲爱燃情

欲爱燃情

本文双洁1v1,前期甜后期虐女主坚强不屈,男主强取豪夺。疯魔的爱火最终会把一切烧成灰烬!六年前,孤女季妃安满怀憧憬考进了沛东有名的高校,却不知道从她踏入校园开始便引起了沛东第一太子爷,裴锦城的注意!季妃安在学校备受欺凌,情窦初开的年纪默默喜欢上了美术课的代课老师宋郢,在毕业那年宋郢却被人举报进了监狱,噩梦还没有结束......

她靠异香颠倒众生

她靠异香颠倒众生

《她靠异香颠倒众生》作者:麻里酥文案苏婠婠被系统选中,到异世界当空有美貌七天就下线的恶毒女配。她以为凭借她的实力,肯定能顺利完成任务,却不想意外开启了隐藏属性——一身勾人醉生梦死的异香。因为帝国近两年生育率严重下降,所以有关部门勒令挑选五对顶级ao参加恋爱直播,挽救生育率。群众对此没有意见,但唯独对苏婠婠抗拒的要死...