如何通过高效复习数据挖掘？

摘要：概念模型评测混淆矩阵 ||预测：1|预测：0| | : : | : : | : : | |真实：1|True Positive (TP)|False Negative (FN)| |真实：0|False Poisitive (FP)|T

概念模型评测混淆矩阵预测：1 预测：0 真实：1 True Positive (TP) False Negative (FN) 真实：0 False Poisitive (FP) True Negative (TN) 准确率：预测正确的占所有的 \(\dfrac{TP+TN}{TP+TN+FP+FN}\) 精确率：预测为1的中真实也为1的 \(\dfrac{TP}{TP+FP}\) 召回率：真实为1的中预测也为1的 \(\dfrac{TP}{TP+FN}\) F1：综合精确率与召回率 \(\dfrac{2\cdot Precise\cdot Recall}{Precise+Recall}\) 数据的属性基本概念数据集的类型数据质量问题遗漏值：一个对象遗漏一个或多个属性值离群点/异常值不一致的值产生矛盾的数据：出生日期与年龄不符属性不一致：同名异义；异名同义属性值不一致：计量方式或表达方式不一致分辨率不一致测量误差噪声：测量误差的随机部分伪像：确定性现象的结果，如镜头破裂导致照片中出现相同裂纹精度：重复测量值之间的接近程度值集合的标准差偏倚：测量值与被测量之间的系统的变差值集合的均值与真实值的差数据归约聚集：合并数据对象抽样简单随机抽烟无放回有放回分层抽样整群抽样特征子集选择嵌入方法基于线性模型的特征选择基于最近邻的方法过滤方法基于统计值的方法方差大的特征区分能力更强，方差小的特征被过滤基于泊松相关性的方法计算每个特征与分类结果的相关性理想方法对所有特征子集进行测试贪婪算法前向：依次添加后向：依次减少维规约将一些旧属性合并在一起创建新属性主成分分析PCA 将数据映射到数据损失最小的方向所有数据对象到映射方向的距离之和最小所有数据对象映射后散度最大的方向工作过程第一维：方差最大的属性第二维：与第一维正交的平面中方差最大的方向第三维：与第一、第二维正交的平面中方差最大的方向 …… 第n维 k维之后的方差几乎为0，选择前k维作为新特征线性判别分析找到一个投影方向，使不同类别的实例在该方向上的投影能最大程度分开数据转换特征创建数据离散化离散化将连续属性变换成分类属性非监督离散化等宽离散等频离散监督离散化基于熵的方法排序找断点计算每个断点带来的信息增益选择信息增益最高的断点进行分裂二元化将连续或离散属性变换成一个或多个二元属性变量变换简单函数标准化相似度和相异度可用单调减函数相互转换统称为临近度相异度欧几里得距离闵可夫斯基距离度量非负性对称性三角对称性相似度相似系数：针对仅包含二元属性的对象之间的相似性度量简单匹配系数 \(SMC=\dfrac{值匹配的属性个数}{属性个数}=\dfrac{f_{00}+f_{11}}{f_{00}+f_{01}+f_{10}+f_{11}}\) Jaccard系数 \(J=\dfrac {1-1匹配的个数} {不涉及0-0匹配的属性个数}=\dfrac {{f}_{11}} {{f}_{01}+{f}_{10}+{f}_{11}}\) 非二元数据余弦相似度 \(cos(x,y)=\dfrac{x\cdot y}{\left \| x \right \| \left \| y \right \| }\) 广义Jaccard系数（Tanimoto系数） \(EJ(x,y)=\dfrac{x\cdot y}{\left \| x \right \|^{2} + \left \| y \right \| ^{2} - x\cdot y}\) 相关性泊松相关系数 \(corr(x,y)=\dfrac{协方差}{标准差之积}=\dfrac{covaraince(x,y)}{std(x)\times std(y)}\) 马氏距离 \(mahalanobis(x,y)=(x-y)\Sigma ^{-1} (x-y)^{T}\) \(\Sigma\)是协方差矩阵适

如何通过高效复习数据挖掘？

相关推荐