pattern_recognition

‘剪辑KNN条件

如果样本足够多，就可以重复地执行剪辑程序，以进一步提高分类性能。称为重复剪辑最近邻法。

KNN被看作一种从样本中获取最大后验概率的方法，

剪辑最近邻法可以推广到K-近邻法中，具体是先用k-NN进行剪辑，第二部用1nn算法进行分类，当类数增加时，该方法的效果会变得更好。

重复加急最近邻法条件是样本足够多

马氏距离欧氏距离明氏距离

P24

欧式距离具有平移和旋转不变性。

马氏距离对一切非奇异线性变换都是不变的。这说明他不受量纲选择的影响。并且平移不变。此外马氏距离对特征的相关性做了处理（计算表达式中有矢量集的样本协方差阵。）：对一切非奇异线性变
换都是不变的。即，具有坐标系比例、
旋转、平移不变性，并且从统计意义
上尽量去掉了分量间的相关性。

1576326533231

1576326558464

感知器算法

P89

H-K算法优点

181.基于二次准则函数的H-K算法较之于感知器算法的优点是（BD）?

A.计算量小

B.可以判别问题是否线性可分

C.其解完全适用于非线性可分的情况

D.其解的适应性更好

相似性测度匹配测度

P28 Rao测度&Dice测度

Rao

1576225756744

等于(1-1)匹配测度和所考差的特征数之比

Dice

1576225955505

fisher判别原理

费歇（FISHER）判别思想是投影，使多维问题简化为一维问题来处理。选择一个适当的投影轴,使所有的样品点都投影到这个轴上得到一个投影值。对这个投影轴的方向的要求是：使每一类内的投影值所形成的类内离差尽可能小，而不同类间的投影值所形成的类间离差尽可能大。

摘自周志华老师的机器学习

判别域界面方程

聚类分析的分类？

聚类分析有很多具体的算法,有的比较简单, 有的相对复杂和完善,但归纳起来就是三大类: 1、按最小距离原则简单聚类方法 2、按最小距离原则进行两类合并的方法 3、依据准则函数动态聚类方法 4 近邻函数法

C均值算法影响因素

受到取定的类别数和初始聚类中心的影响，通常结果只是局部最优的，但其方法简单，结果尚令人满意，故应用较多

1576326581752

层次聚类算法例题

最小误判最小损失

为何提出最小损失准则

从不同性质的错误会引起不同程度的损失这一考虑出发，我们有时宁肯扩大一些总的错误率，也要使总的损失最小。这就提出了最小损失准则的决策方法。

最小误判有几种形式

四种

1576311410009

fisher主要计步骤与分类决策规则

1，把来自两类omega_1/omega_2的训练样本集X分成omega_1对应的子集X_1和与omega_2对应的子集X_2

2 计算m_i 即平均数

3 计算总的类内离差阵S_w

4 计算S_w的逆矩阵S_w^-1

5 按u = S^-{1}_{w}(m_1 - m_2)

6 计算m一弯和y_t

7 分类

1576306181726

1576310329922

什么是线性判别函数

特征的所在子区域可根据它的特征值代入界面方程的线性函数d(x)后的取值正负而确定，表示界面的线性函数d(x)称为线性判别函数。

线性判决的几何意义

运用已知类别的训练样本进行学习产生若干个代数界面d(x）=0,将特征空间划分成一些互不重叠的子区域，使不同的模式类或其主体在不同的子区域中

1576325975691

判决分类结果好坏的标准一句话

类内距离小，类间距离大

最小损失和最小误判的关系

取0-1损失函数时，最小损失准则等价于最小误
判概率准则，此时的平均损失就是误判概率，使平
均损失最小即使误判概率最小。这也表明，最小误
判概率准则是最小损失准则的特例

最大似然估计和矩估计的概念

矩法估计是用样本(的统计)矩作为总体(理论)矩的估值

最大似然估计需要知道概型，据估计不用

聚类分析的使用条件，条状分布应该用什么算法，团状用什么算法

团状用C均值，条状用近邻函数法

1576131925604

最小条件损失，最小损失准则概念

按照两害相权取其轻原则，所采取的决策应是在统计意义上由于误判而蒙受的损失最小。

C均值重心选择样本顺序影响因素，选类心的顺序

1576306938202

相似性测度匹配距离测度相似测度劳氏戴氏

模式识别系统构成

特征提取特征选择学习和训练分类识别

层次聚类，算法结果影响的因素

1576325917801

两类方法处理多分类

什么是模式识别，对象，特征空间。

模式识别概念

根据研究对象的特征或属性，运用一定的分析算法认定其类别，并且分类识别的结果应尽可能地符合真实。

特征矢量

一个分析对象的n个特征量测量值分别为x_1, x_2, … , x_n他们构成一个n维特征矢量x , x = (x_1, x_2, …, x_n)’

特征空间。

各种不同取值的的全体构成了维空间，这个维空间称为特征空间，

先验概率、后验概率、类概率密度

1576313111625

1576313128994

1576313144936

贝叶斯公式

1576313170181

NP判决与最小损失，最小误判的异同

1576313430128

1576326065205

FROM试题

1576326722883

模式的特性：可观察性、可区分性、相似性

1576328261504

1576328667992

1576328751605

答案：约束或限制

1576328808890

答案

1576328849230

答案：聚类算法

1576397778665