现代人工智能课程复习
中山大学研一上学期现代人工智能技术复习的相关资料,主要内容为神经网络基础知识,可能涉及到线性代数、概率论、线性模型、卷积神经网络和CV进展
- 距离度量,重点记忆Mahalanobis距离和Minkowski距离
过拟合
训练集误差减小的时候,测试集误差增大。 解决方案:正则化,给误差函数增加一个惩罚项(L1/L2)
概率论
全概率公式,P(A) = P(A|Bi)P(Bi) 贝叶斯公式,P(Bi|A) = P(ABi)/P(A)
贝叶斯概率
后验概率= 先验概率*似然函数
bootstrap,自助法,频率学派使用。假设原始数据集有N个数据,可以采取随机抽取N个点的做法来生成新的数据集(可重复,可缺失)。这样可以在多个产生的数据集中评估参数估计的结果。
高斯分布
一元与多元的表示
交叉验证
信息准则:AIC与BIC
决策论
或者说贝叶斯决策/贝叶斯推断
- 最小化错误分类率。对于二分类问题,降低错误发生的概率,即把类1分给类2与类2分给类1两个事件。
- 最小化期望损失。使用损失函数来量化错误分类的代价。
- 拒绝选项
判别器
概率分布
二项分布(伯努利分布)
E = p, V = p(1-p)
高斯分布
对于多元实值向量,使熵取最大值的是高斯分布
中心极限定理:
- 独立同分布的中心极限定理。当n个随机变量独立同分布且n足够大的时候,可以将独立同分布的随机变量之和当作正态变量。
对于要定义的高斯分布,其协方差的酥油特征值要严格大于零,不然不能被正确的归一化。如果一个或多个特征值为零,则该高斯分布将是奇异的,被限制在一个低维的子空间上。 高斯分布的局限性在于它是单峰的,因此难以逼近多峰分布。解决方法是使用混合高斯分布,使用足够多的高斯分布,并调整它们的均值和方差以及线性组合的系数,几乎可以以任意精度近似所有的连续概率密度。
共轭先验分布:在贝叶斯统计中,如果先验分布与后验分布是同一分布,则称为共轭分布。一般情况下,给定概率分布,能够寻找一个先验与似然函数共轭,从而后验分布的函数形式与先验分布相同。
非参数估计概率密度:Parzen窗/knn
线性判别
或者降维度
Fisher线性判别函数(LDA)
使得类间距离最大与类内距离最小的分类方式,损失函数为类间方差/类内方差。投影面的方向由均值的中心连线决定。
PCA
PCA选择投影后使得样本投影点具有最大方差的方向,假设就是方差越大,信息量越多。
对于无监督学习,使用PCA降维,维度可以任意。 对于有监督学习,使用LDA降维,维度只能降到k-1
线性回归
Lasso回归,相当于MSE加上L1算子 岭回归,相当于MSE加上L2算子
生成模型与判别模型
对机器学习的任务而言, 其目标是根据属性X预测标记Y,即求得概率P(Y|X),在贝叶斯中这也就是后验概率
判别模型
判别模型是直接求出了一个判别边界,对没有见过的实例X就可以求出边界Y 例子:SVM模型、线性回归模型、一般的人工神经网络(多层感知机)、提升方法、条件随机场、随机森林 特点:输入属性X可以直接得到Y
生成模型
生成模型需要求得P(X,Y),即一个联合概率。对于没有见过的实例X,需要求出X与不同的标记Y之间的联合概率分布,然后取最大的那个。比如上图的右边是没有严格的判定边界的,那对于未见实例(红三角),联合概率分布大的那个类会占优。 例子:高斯混合模型、朴素贝叶斯模型、隐马尔可夫模型、VAE、GAN、受限玻尔兹曼机 特点:对于输入的X,需要求出好几个概率,选择最大的那一个。
卷积神经网络中的参数计算
不考虑通道数,对于NN大小的输入,与FF大小的卷积核,输出大小为(N-F)/stride+1
案例2,对于77的图片,33的卷积核,stride=1,补了一圈零,最后为多少? 大小应该为77,原图片补了一圈零之后等价为99,之后按照公式计算即可。
输入773通道,经过6个33的卷积核,输出的应该为55*6的数据。此处,卷积核默认通道数与输入数据通道数相同,图片大小按照公式计算,卷积核的数量即为输出的通道数。
总结