首页 欧洲联赛正文

AI 科技谈论按,本文作者张皓,目前为南京大学核算机系机器学习与数据发掘所(LAMDA)硕士生,研讨方向为核算机视觉和机器学习,特别是视觉辨认和深度学习。

个人主页:http://lamda.nju.edu.cn/zhangh/。该文为其对 AI 科技谈论的独家供稿,未经许可制止转载。

摘要

本文介绍机器学习算法中的概率方法。概率方法会对数据的散布进行假定,对概率密度函数进行估量,并运用这个概率密度函数进行决议计划。本文介绍四种最常用的概率方法:线性回归 (用于回归使命)、对数几率回归 (用于二分类使命)、Softmax 回归 (用于多分类任扒小三务) 和朴素贝叶斯分类器 (用于多分类使命)。* 前三
种方法归于判别式模型,而朴素贝叶斯分类器归于生成式模型。(*严厉来说,前三者兼有多种解说,既能够看做是概率方法,又能够看做对错概率方法。)

本系列文章有以下特色: (a). 为了减轻读者的担负并能使尽或许多的读者从中收益,本文企图尽或许少地运用数学常识,只要求读者有底子的微积分、线性代数和概率论根底,并在第一节对要害的数学常识进行回忆和介绍。(b). 本文不省掉任何推导进程,当令弥补布景常识,力求使本节内容是自足的,使机器学习的初学者也能了解本文内容。(c). 机器学习近年来开展极端敏捷,已成为一个十分广袤的范畴。本文无法包含机器学习范畴的方方面面,仅就一些要害的机器学习流d2757派的方法进行介绍。(d). 为了协助读者稳固本文内容,或引导读者扩展相关常识,文中穿插了许多问题,并在终究一节进行问题的“快问快答”。

1 预备常识

本节给出概率方法的底子流程,后续要介绍的不同的概率方法都遵从这一底子流程。

1.1 概率方法的建模流程

(1). 对 p(y | x; ) 进行概率假定。咱们假定 p(y| x; )具有某种确认的概率散布方法,其方法被参数向量
仅有地确认。

(2). 对参数 进行最大后验估量。依据练习样例对概率散布的参数 进行最大后验估量 (maximum a posteriori, MAP),得到需求优化的丢失函数。

最大后验估量是指

其在最大化时考虑如下两项:

• 参数的先验散布 p()。最大后验估量以为参数 不知道而且是一个随机变量,其自身遵守一个先验散布 p()。这个先验散布蕴含了咱们关于参数的范畴常识。

• 依据观测数据得到的似然 (likelihood) p(D | )。最大化似然是在 的一切或许的取值中,找到一个能使样本归于其实在符号的概率最大的值。

最大后验估量是在考虑先验散布 p() 时最大化依据观测数据得到的似然 (likelihood) p(D | )。

参数估量的两个不同学派的底子观念是什么? 这实践上是参数估量 (parameter estimation) 进程,统计学中的频率主义学派 (frequentist) 和贝叶斯学派(Bayesian) 供给了不同的处理方案 [3, 9] 。频率主义学派以为参数尽管不知道,但却是客观存在的固定值,因而一般运用极大似然估量来确认参数值。贝叶斯学派则以为参数是未调查到的随机变量,其自身也可有散布,因而,可假定参数遵守一个先验散布,然后依据调查到的数据来核算参数的后验散布。

定理 1. 最大后验估量的成果是优化如下方法的憋尿故事丢失函数

Proof. 运用样例的独立同散布假定,

经历危险和结构危险的意义? L() 的第一项称为经历危险 (empirical risk),用于描绘模型与练习数据的契合程度。第二项称为结构危险 (structural risk) 或正则化项 (regularization term),源于模型的先验概率,表述了咱们期望取得何种性质的模型 (例如期望取得复杂度较小的模型)。 称为正则化常数,对两者进行折中。

结构危险的效果? (1). 为引进范畴常识和用户目的供给了途径。(2). 有助于减少假定空间,然后泪与千年下降了最小化练习差错的过拟合危险。这也可了解为一种 “罚函数法”,即对不期望得到的成果施以赏罚,然后使得优化进程趋向于期望方针。ℓp 范数是常用的正则化项。

其间先验散布 的参数  转化为正则化常数 。

为什么最常假定参数的先验散布是高斯散布 (或最常运用  正则化)? 这是因为高斯散布 N (; ) 是一切均值和熵存在且协方差矩阵是 的散布中熵最大的散布。最大熵散布是在特定束缚下具有最大不确认性的散布。在没有更多信息的状况下,那些不确认的部分都是 “等或许的”。在规划先验散布 p() 时,除了咱们对参数的认知 (例如均值和值域) 外,咱们不想引进任何其他的成见 (bias)。因而最大熵先验 (对应正则化) 常被运用。除高斯先验外,还能够运用不供给信息的先验(uninformative prior),其在必定范围内均匀散布,对应的丢失函数中没有结构危险这一项。

(3). 对丢失函数 L() 进行梯度下降优化。

梯度下降的细节留鄙人一节介绍。

概率方法的优缺陷各是什么? 长处: 这种参数化的概率方法使参数估量变得相对简略。缺陷: 参数估量成果的精确性严峻依靠于所假定的概率散布方法是否契合潜在的实在数据散布。在实践运用中,欲做出能较好地挨近潜在实在散布的假定,往往需在必定程度运用关于运用使命自身的经历常识,不然仅凭 “猜想”来假定概率散布方法,很或许发生误导性的成果。咱们不用定非要概率式地解说这个国际,在不考虑概率的状况下,直接找到分类鸿沟,也被称为判别函数 (discriminant function),有时甚至能比判别式模型发生更好的成果。

1.2 梯度下降

咱们的方针是求解下列无束缚的强生,机器学习算法中的概率方法,nba买卖截止日优化问题。

其间 L() 是接连可微函数。梯度下降是一种一阶 (frstorder) 优化方法,是求解无束缚优化问题最简略、最经典的求解方法之一。

梯度下降的底子思路? 梯度下降贪心肠迭代式地最小化 L()。梯度下降期望找到一个方向 (单位向量) v 使得 L 在这个方向下降最快,并在这个方向行进 的间隔

定理 3. 梯度下降的更新规则是公式 5。重复这个进程,可收敛到部分极小点。

Proof. 咱们需求找到下降最快的方向 v 和行进的间隔。

(1). 下降最快的方向 v。运用泰勒打开

的一阶近似,

即下降最快的方向是丢失函数的负梯度方向。

(2). 行进的间隔 。咱们期望在开端的时分行进间隔大一些以使得收敛比较快,而在挨近最小值时行进间隔小一些以不错失最小值点。因而,咱们设行进间隔为丢失函数梯度的一个倍数

其间 被称为学习率 (learning rate)。

向公式 7 代入最优的后即得。

则称 f 为区间 [a,b] 上的凸函数 (convex function)。当 < 树立时,称为严厉凸函数 (strict convex function)。U形曲线的函数如一般是凸函数。

2 线性回归

2.1 建模流程

线性回归 (linear regression) 回归问题。其建模方法包含如下三步 (拜见第 1.1 节)。

(1). 对 p(y | x; ) 进行概率假定。

咱们假定

被称为差错项,捕获了 (a)。特征向量 x胡宇崴陈庭妮现状 中没有包含的要素.

(b). 随机噪声。对不同的样本是独立同散布地从中进行采样得到的。

线性回归的假定函数是

为了书写便利,咱们记

那么公式 12 等价于

在本文其他部分咱们将沿袭这一简化记号。因而,

(2). 对参数 进行最大后验估量。

定理 7. 假定参数 遵守高斯先验,对参数 进行最大后验估量等价于最小化如下丢失函数

其间

被称为平方丢失 (square loss)。在线性回归中,平方丢失便是企图找到一个超平面,使一切样本到该超平面的欧式间隔 (Euclidean distance) 之炮轰圣光哨站和最小。

Proof

其间,终究一行仅仅为了数学核算上便利,下文推导对数几率回归和 Softmax 回归时的终究一步亦然。

(3). 对丢失函数 L() 进行梯度下降优化。

能够简略地得到丢失函数对参数的偏导数

2.2 线性回归的闭式解

线性回归对应的平方丢失的函数方法比较简略,能够经过求直接得到最优解。

定理 8. 线性回归的闭式解为

Proof. L() 可等价地写作

那么

求解

即得。

不行逆的状况及处理方案? (1). 特点数 d+1 多于样例数 m。(2). 特点之间线性相关。经过正则化项

mI,即便不行逆, + mI 仍是可逆的。

2.3 其他正则化回归模型

事实上,上文介绍的线性回归模型是岭回归 (ridge regression)。依据正则化项的不同,有三种常用的线性回归模型,见表 1。

依据 ℓ0、ℓ1 和 ℓ2 范数正则化的效果? ℓ2 范数倾向于 w 的重量取值尽量均衡,即非零重量个数尽量稠密。而 ℓ0“范数”和 ℓ1 范数则倾向于 w 的重量尽量稀少,即非零重量个数尽量少,优化成果得到了仅选用一部分特点的模型。也便是说,依据 ℓ0“范数”和 ℓ1 范数正则化的学习方法是一种嵌入式 (embedding) 特征挑选方法,其特征挑选进程和学习器练习进程融为一体,两者在同一个优化进程中完结。事实上,对 w 施加稀少束缚最天然的是运用 ℓ0“范数”。但 ℓ0“范数”不接连,难以优化求解。因而常选用 ℓ1 范数来近似。

为什么 ℓ1 正则化比 ℓ2 正则化更易于取得稀少解?假定,则。咱们制作出平方丢失项、ℓ1 范数和 ℓ2 范数的等值线 (取值相同的点的连线),如图 1 所示。LASSO 的解要在平方丢失项和正则化项之间折中,即呈现在图中平方差错项等值线和正则化项等值线的相强生,机器学习算法中的概率方法,nba买卖截止日交处。从图中能够看出,选用 ℓ1 正则化时交点常呈现在坐标轴上 (w2 = 0), 而选用 ℓ2 正则化时交点常呈现在某个象限中 (w1,w2 均不为 0)。

Figure 1: ℓ1 正则化 (赤色) 比 ℓ2 正则化 (黑色) 更易于取得稀少解。本图源于 [17]。

考虑一般的带有 ℓ1 正则化的优化方针

若 ℓ() 满意 L-Lipschitz 条件,即

优化一般运用近端梯度下降 (proximal gradient descent, PGD) [1]。PGD 也是一种贪心肠迭代式地最小化战略,能快速地求解依据 ℓ1 范数最小化的方法。

定理 9. 假定当时参数是,PGD 的更新原则是

其间

Proof. 在 邻近将 ℓ() 进行二阶泰勒打开近似

因为 各维互不影响 (不存在穿插项),因而能够独立求解各维。

在 LASSO 的根底上进一步开展出考虑特征分组结构的 Group LASSO [14] 、考虑特征序结构的 Fused LASSO [11] 等变体。因为凸性不严厉,LASSO 类方法或许发生多个解,该问题经过弹性网(elastic net)得以处理 [16] .

2.4 存在反常点数据的线性回归

一旦数据中存在反常点 (outlier),因为平方丢失核算的是样本点到超平面间隔的平方,远离超平面的点会对回归成果发生更大的影响,如图 2 所示。平方丢失对应于假定噪声遵守高斯散布,一种应对反常点的方法是代替高斯散布为其他更加剧尾 (heavy tail) 的散布,使其对反常点的忍受才干更强,例如运用拉普拉斯散布,如图 3 所示。

Figure 2:存在反常点 (图下方的三个点) 时一般线性回归 (赤色) 和稳健线性回归 (蓝色)。本图源于 [7]强生,机器学习算法中的概率方法,nba买卖截止日。

Figure 3: 高斯散布 N (0,1) (赤色) 和拉普拉斯散布Lap(0,1) (蓝色)。本图源于:https://www.epixanalytics.com/modelassist/AtRisk/images/15/image632.gif

定 位面老板义 2 (拉 普 拉 斯 分 布 (Laplace distribution) Lap(,b)),又称为双方指数散布 (double sided exponential distribution),具有如下的概率密度函数

该散布均值为 ,方差为 

定理 10. 假定参数遵守高斯先验,

对参数 进行最大后验估量等价于最小化如下丢失函数

Proof

因为绝对值函数不光滑,不便利依据梯度下降对公式 33 进行优化。经过别离变量技巧,可将其转化为二次规划 (quadratic programming) 问题,随后调用现有的软件包进行求解。咱们鄙人一章方法化 SVR 时还会再运用这个技巧。

定理 11. 最小化公式 33 等价于如下二次规划问题,其包含 d + 1 + 2m 个变量,3m 个束缚:

此外,为了结合高斯散布 (对应普通丢失) 简略优化和拉普拉斯散布 (对应 ℓ1 丢失) 能够应对反常值的长处,Huber 丢失[5]在差错挨近 0 时为平方丢失,在差错比较大时挨近 ℓ1 丢失,如图 4 所示。

Huber 丢失处处可微,运用依据梯度的方法对 Huber 丢失进行优化会比运用拉普拉斯散布更快。

Figure 4: ℓ2 丢失 (赤色)、ℓ1 丢失 (蓝色) 和 Huber 丢失 (绿色)。本图源于 [7]。

2.5 广义线性模型

线性回归运用特点的线性组合进行猜测。除了直接运用迫临 y 外,还能够使模型的猜测辉木誉值迫临 y 的衍生物。考虑单调可微函数 g,令

这样得到的模型称为广义线性模型 (generalized linear model),其间函数 g 被称为联络函数 (link function)。本文介绍的线性回归、对数几率回归和 Softmax 回归都归于广义线性模型,如表 2 所示。

广义线性模型的长处? (1). 方法简略、易于建模。(2). 很好的可解说性。直观表达了各特点在猜测中的重要性。

怎么运用广义线性模型处理非线性问题? (1). 引进层级结构。例如深度学习是对样本 x 进行逐层加工,将初始的低层表明转化为高层特征表明后运用线性分类器。(2). 高维映射。例如核方法将 x 映射到一个高维空间 (x) 后运用线性分类器。

3 对数几率回归

3.1 建模流程

对数几率回归 (logistic regression) 应对二分类问题。其建模方法包含如下三步 (拜见第 1.1 节)。

(1). 对 p(y | x, ) 进行概率假定。

对二分类使命,符号 ,而发生的是实数值,所以,咱们需求找到一个单调可微函数 g 将转化为。最理想孙祥老婆的是用单位阶跃函数

大于 0 时输出 1,小于 0 时输出 0。可是,单位阶跃函数不接连不行微,无法运用梯度下降方法进行优化。因而,咱们期望找到一个能在必定程度上近似单位阶跃函数并单调可微的代替函数 (surrogate function)。

Figure 5: 单位阶跃函数 (赤色) 与对数几率函数 (黑色)。本图源于 [17]。

如图 5 所示,对数几率函数 (sigmoid function) 正是这样一个常用的代替函数

咱们将其视为后验概率估量,即

那么

两者能够兼并写作

也便是说,y | x, 遵守伯努利散布 Ber(sigm)。

(2). 对参数 进行最大后验估量。

定理 12. 假定参数 遵守高斯先验,对参数 进行最大强生,机器学习算法中的概率方法,nba买卖截止日后验估量等价于最小化如下丢失函数

其间

称为对数几率丢失 (logistic loss)。

Proof

注意到

因而

(3). 对丢失函数 L() 进行梯度下降优化。

3.2 与广义线性模型的联系

对数几率回归的假定函数等价于,其间被称为几率 (odds),反映 x 作为正例的相对或许性。被称为对数几率 (log odds, logit),公式 50 实践上在用线性回归模型的猜测成果迫临实在符号的对数几率,这是对数几率回归称号的由来。

对数几率回归的长处? (1). 直接对分类的或许性进行建模 (假定 p(y | x, ) 遵守伯努利散布),无需事前假定样本 x 的散布,这样防止了假定散布不精确所带来的问题。(2). 不仅能猜测出类别,还能够得到近似概率猜测,对许多需求概率辅佐决议计划的使命很有用。(3). 对数几率的方针函数是凸函数,有很好的数学性质。

引理 邪手医仙13. 对数几率丢失函数是凸函数。

Proof. 在的根底上,进一步可求得是一个半正定矩阵。

3.3  的对数几率回归

为了概率假定便利,咱们令二分类问题的符号。有时,咱们需求处理方法的分类问题。对数几率丢失函数需求进行相应的改动。

(1). 对 p校宝体系登录(y | x, ) 进行概率假定。

咱们假定

那么

两者能够兼并写作

(2). 对参数 进行最大后验估量。

定理 14. 假定参数 遵守高斯先验,对参数 进行最大后验估量等价于最小化如下丢失函数

其间

称为对数几率丢失 (logistic loss)。

Proof

(3). 对丢失函数 L() 进行梯度下降优化。

4 Softmax 回democrazy归

4.1 建模流程

Softmax 回归应对多分类问题,它是对数几率回归向多分类问题的推行。其建模方法包含如下三步 (拜见
第 1.1 节)。

(1). 对 p(y | x, ) 进行概率假定。

对数几率回归假定 p(y | x, ) 遵守伯努利散布,Softmax 回归假定 p(y | x, ) 遵守如下散布

假定函数能够写成矩阵的方法

(2). 对参数 进行最大后验估量。

定理 15. 假定参数 遵守高斯先验,对参数 进行最大后验估量等价于最小化如下丢失函数

其间

称为穿插熵丢失 (cross-entropy loss)。

Proof

(3). 对丢失函数 L() 进行梯度下降优化。

丢失函数对应于类别 k 的参数的导数是

写成矩阵的方法是

其间的第 k 个元素是 1,其他元素均为 0。比照公式 20 、49 和 67 ,丢失函数的梯度有相同
的数学方法

差异在于假定函数的方法不同。事实上,一切的广义线性模型都有类似于公式 68 的更新原则。

4.2 穿插熵

界说由练习集调查得到的散布,称为经历散布 (empirical distribution)。经历散布对应于第 i 个样例,界说。另一方面,是由模型估量出的概率。

定理 16. 穿插熵丢失旨在最小化经历散布和学得散布之间的穿插熵。这等价于最小化之间的 KL 散度,迫使估量的散布近似方针散布

Proof

5 朴素贝叶斯分类器

朴素贝叶斯分类器 (naive Bayes classifer) 也是一种概率方法,但它是一种生成式模型。在本节,咱们首要回忆生成式模型,之后介绍朴素贝叶斯分类器的建模流程。

5.1 生成式模型

判别式模型和生成式模型各是什么? 判别式模型(discriminant 强生,机器学习算法中的概率方法,nba买卖截止日model) 直接对 p(y | x) 进行建模,生成式模型 (generative model) 先对联合散布 p(x, y) = p(x | y)p(y) 进行建模,然后再得到

其间,p(y) 是类先验 (prior) 概率,表达了样本空间中各类样本所占的份额。p(x | y) 称为似然 (likelihood)。p(x) 是用于归一化的依据 (evidence)。因为其和类符号无关,该项不影响 p(y | x) 的估量

怎么对类先验概率和似然进行估量? 依据大数规律,当练习集包含满足的独立同散布样本时,p(y) 可经过各类样本呈现的频率来进行估量

而对似然 p(x | y),因为其触及 x 一切特点的联合概率,假如依据有限练习样本直接估量联合概率,(1). 在核算上将会遭受组合爆破问题。(2). 在数据上将会遭受样本稀少问题,许多样本取值在练习会集底子没有呈现,而“未被观测到”与“呈现概率为零”一般是不同的。直接按样本呈现的频率来估量会有严峻的困难,特点数越多,困难越严峻。

判别式模型和生成式模型的优缺陷? 优缺陷比照如表 3 所示。

5.2 建模流程

(1). 对 p(x | y, ) 进行概率假定。

生成式模型的首要困难在于, 类条件概率 p(x | y)是一切特点的联合概率,难以从有限的练习样本直接估量而得。为避开这个妨碍,朴素贝叶斯分类器选用了特点条件独立性假定:对已知类别,假定一切特点彼此独立。也便是说,假定每个特点独登时对分类成果发生影响

此外,对接连特点,进一步假定

因而,朴素贝叶斯分类器的假定函数是

(2). 对参数 进行最大后验估量。参数 包含了第 c 类样本在第 j 个特点上的高斯散布的均值
方差

定理 17. 假定参数 遵守不供给信息王羽潞的先验,对参数 进行最大后验估量的成果是

Proof. 代入公式 76

5.3 离散特点的参数估量

朴素贝叶斯分类器能够很简略地处理离散特点。可估量为

但是,若某个特点值在练习会集没有与某个类一起呈现过,则依据公式 82 估量得到 0。代入公式 75 得到 -1。因而,不管该样本的其他特点是什么,分类成果都不会是 y = c,这明显不太合理。

为了防止其他特点带着的信息被练习会集未呈现的特点值“抹去”,在估量概率值时一般要进行滑润(smoothing),常用拉普拉斯批改 (Laplacian correction)。详细的说,令 K 表明练习集 D 中或许的类别数,nj 表明第 j 个特点或许的取值数,则概率估量批改为

拉普拉斯批改实践上假定了特点值与类别均匀散布,这是在朴素贝叶斯学习中额定引进的关于数据的先验。在练习集变大时,批改进程所引进的先验的影响也会逐步变得可疏忽,使得估值渐趋向于实践概率值。

在实践使命中朴素贝叶斯有多种完成方法。例如,若使命对猜测速度要求较高,则对给定练习集,可将朴素贝叶斯分类器触及的一切概率估值事前核算好存储起来,这弃号免费网站样在进行猜测时只需查表即可进行判别。若使命数据替换频频,则可选用懒散学习方法,先不进行任何练习,待收到猜测恳求时再依据当时数据集进行概率估值。若数据不断添加,则可在现有估值根底上,仅对新增样本的特点值所触及的概率估值进行计数批改即可完成增量学习。

界说 3 (懒散学习 (lazy learning))。这类学习技能在练习阶段仅仅是把样本保存起来,练习时刻开支是 0,待收到测验样本后再进行处理。相应的,那些在练习阶段就对样本进行学习处理的方法称为急迫学习(eager learning)。

界说 4 (增量学习 (incremental learning))。在学得模型后,再接收到练习样例时,仅需依据新样例对模型进行更新,不用从头练习整个模型,而且从前学得的有用信息不会被“冲掉”。

5.4 朴素贝叶斯分类器的推行

朴素贝叶斯分类器选用了特点条件独立性假定,但在实践使命中这个假定往往很难树立。所以,人们测验对特点条件独立性假定进行必定程度的放松,恰当考虑一部分特点间的彼此依靠联系,这样既不需求进行彻底联合概率核算,又不至于彻底疏忽了比较强的特点依靠联系,由此发生一类半朴素贝叶斯分类器 (semi-naive Bayes classifers) 的学习方法。

独依靠估量 (one-dependent estimator, ODE) 是最常用的一种战略,其假定每个特点在类别之外最多依靠于一个其他特点 (称为父特点)。问题的要害在于怎么确认每个特点的父特点。SPODE (super-parent ODE) 假定一切特点都依靠于同一个特点,称为超父 (superparent)。TAN (tree augmented naive Bayes) [4] 以特点节点构建彻底图,恣意两结点之间边的权重设为这两个特点之间的条件互信息。之后构建此图的最大带权生成树,挑选根变量,将边置为有向,以将特点间依靠联系约简为树形结构。终究参加类别结点 y,添加从 y 到每个特点的有向边。TAN 经过条件互信息描写两特点的条件相关性,终究保留了强相关特点之间的依靠性。AODE (averaged ODE) [13] 测验将每个特点作为超父来构建 SPODE,之后将那些具有满足练习数据支撑的 SPODE 集成作为终究成果。AODE 的练习进程也是“计数”,因而具有朴素贝叶斯分类器无需模型挑选、可预核算节约猜测时刻、也能懒散学习、而且易于完成增量学习。

能否经过考虑特点间高阶依靠进一步提高泛化功能? 比较 ODE, kDE 考虑最多 k 个父特点。跟着依靠的特点个数 k 的添加,精确进行概率估量所需的练习样本数量将以指数级添加。因而,若练习数据十分充沛,泛化功能有或许提高。但在有限样本条件下,则又堕入高阶联合概率的泥沼。

更进一步,贝叶斯网 (Bayesian network),也称为信仰网 (belief network),能表明恣意特点间的依靠性。贝叶斯网是一种概率图模型,凭借有向无环图描写特点间的依靠联系。

事实上,尽管朴素贝叶斯的特点条件独立假定在实践运用中往往很难树立,但在许多景象下都能取得相当好的功能 [2, 8]。一种解说是对分类使命来说,只需各类其他条件概率排序正确,无须精准概率值即可导致正确分类成果 [2]。另一种解说是,若特点间依靠对一切类别影响相同,或依靠联系能彼此抵消,则特点条件独立性假定在下降核算开支的一起不会对功能发生负面影响 [15]。朴素贝叶斯分类器在信息检索范畴尤为常用 [6]。

6 快问快答

随机梯度下降和规范梯度下降的优缺陷各是什么?

• 参数更新速度。规范梯度下降需求遍历整个练习集才干核算出梯度,更新较慢。随机梯度下降只需求一个练习样例即可核算出梯度,更新较快。

• 冗余核算。当练习集样本存在冗余时,随机梯度下降能防止在类似样例上核算梯度的冗余。

• 梯度中的随机要素/噪声。规范梯度下降核算得到的梯度没有随机要素,一旦堕入部分极小将无法跳出。随机梯度下降核算得到的梯度有随机要素,有时机跳出部分极小持续优化。

实践运用时,常选用随机梯度下降和规范梯度下降的折中,即运用一部强生,机器学习算法中的概率方法,nba买卖截止日分样例进行小批量梯度下降。此外,比较随机梯度下降,小批量梯度下降还能够更好运用矩阵的向量化核算的优势。

梯度下降和牛顿法的优缺陷各是什么?

• 导数阶数。梯度下降只需求核算一阶导数,而牛顿法需求核算二阶导数。一阶导数供给了方向信息(下降最快的方向),二阶导数还供给了函数的形状信息。

• 核算和存储开支。牛顿法在参数更新时需求核算 Hessian 矩阵的逆,核算和存储开支比梯度下降更高。

• 学习率。梯度下降对学习率很灵敏,而规范的牛顿法不需求设置学习率。

• 收敛速度。牛顿法的收敛速度比梯度下降更快。

• 牛顿法不适合小批量或随机样本。

实美腿照际运用时,有许多拟牛顿法旨在以较低的核算和存储开支近似 Hessian 矩阵。

线性回归的丢失函数及梯度推导。

答案见上文。

为什么要运用正则化,ℓ1 和 ℓ2 正则化各自对应什么散布,各有刘涛为什么扔掉李玮珉什么效果?

答案见上文。

对数几率回归的丢失函数及梯度推导。

答案见上文。

线性分类器怎么扩展为非线性分类器?

答案见上文。

判别式模型和生成式模型各是什么,各自优缺陷是什么,常见算法中哪些是判别式模型,哪些是生成式模型?

答案见上文。

贝叶斯定理各项的意义?

答案见上文。

朴素贝叶斯为什么叫“朴素”贝叶斯?

为了避开从有限的练习样本直接估量 p(x | y) 的妨碍,朴素贝叶斯做出了特点条件独立假定,该假定在实践运用中往往很难树立。

References

[1] P. L. Combettes and V. R. Wajs. Signal recovery by proximal forward-backward splitting. Multiscale Modeling & Simulation, 4(4):1168–1200, 2005. 5

[2] P. M. Domingos and M. J. Pazzani. On the optimality of the simple bayesian classifer under zero-one loss. Machine Learning, 29(2-3):103–130, 1997. 12

[3] B. Efron. Bayesians, frequentists, and scientists. Journal of the American Statistical Association, 100(469):1–5, 2005. 1

[4] N. Friedman, D. Geiger, and M. Goldszmidt. Bayesian network classifers. Machine Learning, 29(2-3):131–163,1997. 12

[5] P. J. Huber. Robust estimation of a location parameter. Annals of Statistics, 53(1):492–518, 1964. 6

[6] D. D. Lewis. Naive (bayes) at forty: The independence assumption in information retrieval. In Proceedings of the 10th European Conference on Machine Learning(ECML), pages 4–15, 1998. 13

[7] K. P. Murphy. Machine Learning: A Probabilistic Perspective. MIT Press, 2012. 5, 6

[8] A. 676mkY. Ng and M. I. Jordan. On discriminative vs. generative classifers: A comparison of logistic regression and naive bayes. In Advances in Neural Information Processing Systems 14 (NIPS), pages 841–848, 2001.12

[9] F. J. Samaniegos. A Comparison of the Bayesian and Frequentist Approaches to Estimation. Springer Science & Business Media, 2010. 1

[10] R. Tibshirani. Regression shrinkage and selection via the LASSO. Journal of the Royal Statistical Society. Series B (Methodological), pages 267–288, 1996. 4

[11] R. Tibshirani, M. Saunders, S. Rosset, J. Zhu, a强生,机器学习算法中的概率方法,nba买卖截止日nd K. Knight. Sparsity and smoothness via the fused lasso. Journal of the Royal Statistical Society: Series B (Statistical Methodology), 67(1):91–108, 2005. 5

[12] A. N. Tikhonov and V. I. Arsenin. Solutions of Ill-posed Problems. Winston, 1977. 4

[13] G. I. Webb, J. R. Boughton, and Z. Wang. Not so naive bayes: Aggregating one-dependence estimators. Machine Learning, 58(1):5–24, 2005. 12

[14] M. Yuan and Y. Lin. Model selection and estimation in regression with grouped variables. Journal of the Royal Statistical Society: Series B (Statistical Methodology), 68(1):49–67, 2006. 5

[15] H. Zhang. The 景瑟公主optimality of naive bayes. In Proceedings of the Seventeenth International Florida Artifcial Intelligence Research Society Conference (FLAIRS), pages 562–567, 2004. 13

[16] H. Zou and T. Hastie. Regularization and variable selection via the elastic net. Journal of the Royal Statistical Society: Series B (Statistical Methodolo1927之帝国复兴gy), 67(2):301–320, 2005. 5

[17] 周志华. 机器学习. 清华大学出版社, 2016. 5, 7, 12

更多机器学习常识,欢迎参加 AI 研习社树立的CMU 2018 秋季《深度学习》课程学习小组。点击阅览原文了解一下吧~ 

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

半月板,四川:上半年为企业和个人减负91.4亿,复方氨酚烷胺片

  • 美国股市最新行情,百合花8月14日盘中涨幅达5%,白夜行

  • qq邮箱登录,清单 | 时尚精们都现已悄悄get的夏天躲藏技术,来chic一夏,名门闺杀

  • 僵尸,杭州市卫生健康委紧迫布置,全面加强台风灾后防病作业!,海市蜃楼

  • 锌,意大利执政联盟矛盾激化 政治危机或催生提早大选,潮州景点