如何通过高效复习数据挖掘?
摘要:概念 模型评测 混淆矩阵 ||预测:1|预测:0| | : : | : : | : : | |真实:1|True Positive (TP)|False Negative (FN)| |真实:0|False Poisitive (FP)|T
概念
模型评测
混淆矩阵
预测:1
预测:0
真实:1
True Positive (TP)
False Negative (FN)
真实:0
False Poisitive (FP)
True Negative (TN)
准确率:预测正确的占所有的
\(\dfrac{TP+TN}{TP+TN+FP+FN}\)
精确率:预测为1的中真实也为1的
\(\dfrac{TP}{TP+FP}\)
召回率:真实为1的中预测也为1的
\(\dfrac{TP}{TP+FN}\)
F1:综合精确率与召回率
\(\dfrac{2\cdot Precise\cdot Recall}{Precise+Recall}\)
数据的属性
基本概念
数据集的类型
数据质量问题
遗漏值:一个对象遗漏一个或多个属性值
离群点/异常值
不一致的值
产生矛盾的数据:出生日期与年龄不符
属性不一致:同名异义;异名同义
属性值不一致:计量方式或表达方式不一致
分辨率不一致
测量误差
噪声:测量误差的随机部分
伪像:确定性现象的结果,如镜头破裂导致照片中出现相同裂纹
精度:重复测量值之间的接近程度
值集合的标准差
偏倚:测量值与被测量之间的系统的变差
值集合的均值与真实值的差
数据归约
聚集:合并数据对象
抽样
简单随机抽烟
无放回
有放回
分层抽样
整群抽样
特征子集选择
嵌入方法
基于线性模型的特征选择
基于最近邻的方法
过滤方法
基于统计值的方法
方差大的特征区分能力更强,方差小的特征被过滤
基于泊松相关性的方法
计算每个特征与分类结果的相关性
理想方法
对所有特征子集进行测试
贪婪算法
前向:依次添加
后向:依次减少
维规约
将一些旧属性合并在一起创建新属性
主成分分析PCA
将数据映射到数据损失最小的方向
所有数据对象到映射方向的距离之和最小
所有数据对象映射后散度最大的方向
工作过程
第一维:方差最大的属性
第二维:与第一维正交的平面中方差最大的方向
第三维:与第一、第二维正交的平面中方差最大的方向
……
第n维
k维之后的方差几乎为0,选择前k维作为新特征
线性判别分析
找到一个投影方向,使不同类别的实例在该方向上的投影能最大程度分开
数据转换
特征创建
数据离散化
离散化
将连续属性变换成分类属性
非监督离散化
等宽离散
等频离散
监督离散化
基于熵的方法
排序找断点
计算每个断点带来的信息增益
选择信息增益最高的断点进行分裂
二元化
将连续或离散属性变换成一个或多个二元属性
变量变换
简单函数
标准化
相似度和相异度
可用单调减函数相互转换
统称为临近度
相异度
欧几里得距离
闵可夫斯基距离
度量
非负性
对称性
三角对称性
相似度
相似系数:针对仅包含二元属性的对象之间的相似性度量
简单匹配系数
\(SMC=\dfrac{值匹配的属性个数}{属性个数}=\dfrac{f_{00}+f_{11}}{f_{00}+f_{01}+f_{10}+f_{11}}\)
Jaccard系数
\(J=\dfrac {1-1匹配的个数} {不涉及0-0匹配的属性个数}=\dfrac {{f}_{11}} {{f}_{01}+{f}_{10}+{f}_{11}}\)
非二元数据
余弦相似度
\(cos(x,y)=\dfrac{x\cdot y}{\left \| x \right \| \left \| y \right \| }\)
广义Jaccard系数(Tanimoto系数)
\(EJ(x,y)=\dfrac{x\cdot y}{\left \| x \right \|^{2} + \left \| y \right \| ^{2} - x\cdot y}\)
相关性
泊松相关系数
\(corr(x,y)=\dfrac{协方差}{标准差之积}=\dfrac{covaraince(x,y)}{std(x)\times std(y)}\)
马氏距离
\(mahalanobis(x,y)=(x-y)\Sigma ^{-1} (x-y)^{T}\)
\(\Sigma\)是协方差矩阵
适
