机器学习的基本术语pdf,txt教程

【本段以《机器学习 . 周志华》 1.2 p2 为上下文】 在这一篇,我们要熟悉机器学习的基本术语,以简化我们后续沟通的成本


我们要让机器学习的原材料叫样本集合,英文是 sample set

每个样本都有属性( attribute )和标记( label )

这个属性也叫特征 (feature)
每个样本你必须有一个或者多个属性和一个标记

这就相当于人类诞生以来,老一代教育小一代, ” 你看,这个瓜敲起来脆脆的(属性),它是好瓜(标记)

” 属性空间( attribute space ) : 举例来说,西瓜的色泽就是一个属性,色泽的值有如下三种情况 { 青绿,乌黑,浅白 } ,那么色泽属性的空间就是 { 青绿,乌黑,浅白 }

在实际的样本中,青绿,乌黑,浅白都会被数字表达
从而映射到数学的空间表达里

假设( hypothesis) ) : 这个概念比较难理解

我们把我们机器学到的蛋,叫做一个假设
西瓜是好是坏,是有真理的 (ground-truth)
但真理是永远不会被发现的

我们通过机器学习学习到的模型,你敢说它是真理吗?你不敢,如果你拿着你的蛋,站在集市里,大声宣称 : “这个蛋能够准确判断世界上所有西瓜的好坏 ! ”连乞丐都会嘲笑你

冷静的你于是改口:“我这个蛋,能预测大部分西瓜的好坏” == “我这个蛋,接近真理了

” == “我假设我这个蛋就是真理”

你假设你的蛋是真理,我也假设我的蛋说是真理,我们都是真理的众多假设中的一个

这些假设没有一个是真理,但是他们却组成了假设空间( hypothesis space )

我们训练模型的过程,也就是找出最接近真理的假设的过程
一句话:一个模型 = 一个蛋 = 一个对真理的假设

分类( classification ) : 给出一个测试样本,机器就说出它的类别,这个叫分类

它是好西瓜 / 它是坏西瓜
这个数据是在行走 / 跑步 / 静止

回归( regression ):若欲预测的是连续值 ? 例如西瓜成熟度 0.95 、 0.37 ,明早下雨的概率,西伯利亚寒流的强度(从 0 到 10 ),此类学习任务称为 ” 回归 ” (regression). 感觉这个概念和“回归”联系不上

先忽略
后面会详细讲这个回归
回家,归来,回到正道上

聚类( (clustering ):即将训练集中的西瓜分成若干组,每组称为 A 个 ” 簇 ” (cluster); 这些自动形成的簇可能对应一些潜在的概念划分,例如 ” 浅色瓜 “” 深色瓜 ” , 这样的学习程有助于我们了解数据内在的规律 ? 能为更深入地分析数据建立基础 . 需说明的是,在聚类学习中, ” 浅色瓜 ” ” 本地瓜 ” 这样的概念我们事先是不知道的,而且学习过程中使用的训练样本通常不拥有标记信息


发表回复