如何通过高效复习数据挖掘？

摘要：概念模型评测混淆矩阵 ||预测：1|预测：0| | : : | : : | : : | |真实：1|True Positive (TP)|False Negative (FN)| |真实：0|False Poisitive (FP)|T

概念模型评测混淆矩阵预测：1 预测：0 真实：1 True Positive (TP) False Negative (FN) 真实：0 False Poisitive (FP) True Negative (TN) 准确率：预测正确的占所有的 \(\dfrac{TP+TN}{TP+TN+FP+FN}\) 精确率：预测为1的中真实也为1的 \(\dfrac{TP}{TP+FP}\) 召回率：真实为1的中预测也为1的 \(\dfrac{TP}{TP+FN}\) F1：综合精确率与召回率 \(\dfrac{2\cdot Precise\cdot Recall}{Precise+Recall}\) 数据的属性基本概念数据集的类型数据质量问题遗漏值：一个对象遗漏一个或多个属性值离群点/异常值不一致的值产生矛盾的数据：出生日期与年龄不符属性不一致：同名异义；异名同义属性值不一致：计量方式或表达方式不一致分辨率不一致测量误差噪声：测量误差的随机部分伪像：确定性现象的结果，如镜头破裂导致照片中出现相同裂纹精度：重复测量值之间的接近程度值集合的标准差偏倚：测量值与被测量之间的系统的变差值集合的均值与真实值的差数据归约聚集：合并数据对象抽样简单随机抽烟无放回有放回分层抽样整群抽样特征子集选择嵌入方法基于线性模型的特征选择基于最近邻的方法过滤方法基于统计值的方法方差大的特征区分能力更强，方差小的特征被过滤基于泊松相关性的方法计算每个特征与分类结果的相关性理想方法对所有特征子集进行测试贪婪算法前向：依次添加后向：依次减少维规约将一些旧属性合并在一起创建新属性主成分分析PCA 将数据映射到数据损失最小的方向所有数据对象到映射方向的距离之和最小所有数据对象映射后散度最大的方向工作过程第一维：方差最大的属性第二维：与第一维正交的平面中方差最大的方向第三维：与第一、第二维正交的平面中方差最大的方向 …… 第n维 k维之后的方差几乎为0，选择前k维作为新特征线性判别分析找到一个投影方向，使不同类别的实例在该方向上的投影能最大程度分开数据转换特征创建数据离散化离散化将连续属性变换成分类属性非监督离散化等宽离散等频离散监督离散化基于熵的方法排序找断点计算每个断点带来的信息增益选择信息增益最高的断点进行分裂二元化将连续或离散属性变换成一个或多个二元属性变量变换简单函数标准化相似度和相异度可用单调减函数相互转换统称为临近度相异度欧几里得距离闵可夫斯基距离度量非负性对称性三角对称性相似度相似系数：针对仅包含二元属性的对象之间的相似性度量简单匹配系数 \(SMC=\dfrac{值匹配的属性个数}{属性个数}=\dfrac{f_{00}+f_{11}}{f_{00}+f_{01}+f_{10}+f_{11}}\) Jaccard系数 \(J=\dfrac {1-1匹配的个数} {不涉及0-0匹配的属性个数}=\dfrac {{f}_{11}} {{f}_{01}+{f}_{10}+{f}_{11}}\) 非二元数据余弦相似度 \(cos(x,y)=\dfrac{x\cdot y}{\left \| x \right \| \left \| y \right \| }\) 广义Jaccard系数（Tanimoto系数） \(EJ(x,y)=\dfrac{x\cdot y}{\left \| x \right \|^{2} + \left \| y \right \| ^{2} - x\cdot y}\) 相关性泊松相关系数 \(corr(x,y)=\dfrac{协方差}{标准差之积}=\dfrac{covaraince(x,y)}{std(x)\times std(y)}\) 马氏距离 \(mahalanobis(x,y)=(x-y)\Sigma ^{-1} (x-y)^{T}\) \(\Sigma\)是协方差矩阵适用于属性相关、值域不同、数据分布近似高斯分布的情况异种对象的相似度临近度计算方法的选择稠密、连续数据欧几里得距离稀疏、非对称数据余弦相似度或广义Jaccard系数时间序列数据量度重要：欧几里得距离形状重要：相关性类似的趋势或周期模式数据变换或规范化多元汇总统计位置度量均值：各属性分别取均值散布度量各属性的散布度量采用协方差矩阵\(S\)表示可视化盒状图标注出了以下百分位点：10、25、50、75、90 分类算法文本分类文本特征表示 One-hot表示 TFIDF表示 \(tfidf\left( word \right) =\dfrac{word\text{出现在文档中的次数}}{\text{文章中总词数}}\times \log \dfrac{\text{文档总数}}{\text{包含}word\text{的文档数}}\) 基于语义的表示同义词集合表示 “电脑”出现时，认为“计算机”也出现嵌入表示义素是语义基本单元，一个词由不同的义素按不同比例配比而成词嵌入表示词向量：50~100维的浮点向量利用训练好的词向量 word2vec训练自己的词向量句子的嵌入表示词向量的连接或累加基于话题的表示话题是一个文档集的基本元素模型泛化性能泛化性能：模型对未知类标数据上的分类性能导致泛化性能降低的原因过度训练训练数据量少有噪音数据泛化性能的评估乐观估计：用训练误差（模型在训练集上的错分样本比率）估计悲观估计 \(err_{gen}\left( T \right) =err\left( T \right) +\varOmega \times \dfrac{k}{N_{train}}\) \(k\)为叶节点数目，\(N_{train}\)为训练实例数估计误差率的置信区间最小描述长度提升模型泛化性能剪枝前向剪枝：建立树的过程中决定何时停止建立子树后向剪枝：在决策树建立之后决定如何剪枝子树置换子树提升不均衡分类、多分类、分类的效率不均衡分类概念：不同类别的数据实例数目差别较大的分类代价敏感学习：根据代价矩阵计算模型代价，作为评价模型好坏的依据对应位置相乘再累加抽样的方法使多数类与少数类的样例比例接近1:1 多数类中随机选择一部分样例复制少数类中的样本问题欠采样：丢失数据过采样：引入冗余数据解决只采样分类边缘的数据用于计算在少数类中选取两个临近的实例，在其之间的区域内随机生成新样例多分类问题一对多针对每个类别的二分类器，置信度最高的就是分类结果对置信度的计算结果更为敏感，需要仔细调整参数成对分类类别之间两两组合，共\(C_{N}^{2}\)个分类器，投票高的就是分类结果集成分类多个二分类器的输出作为01串，与类别对应的编码进行比较，相近的是分类结果衡量两个输出是否相近汉明距离：不同字符的个数编码之间的汉明距离越大越好类别编码不同维度之间关联越小越好算法的效率基于实例的方法对未知类标的实例，从已知类标的实例中找距离最近或最相似的实例，将其类标作为自己的类标如何高效寻找最近邻 KD-tree 详解二叉树 \(K\)为属性数量提升效率平衡的KD-tree 选择方差最大的维度做下一步区域划分将样例尽量等分到两个区域区域尽量是正方形球树将KD-tree中超矩形体换为超球体建立平衡的球树关联分析基本概念事务：事务数据集中的一条数据，由项组成项：如\(a\)、\(b\)、\(c\)、\(d\)等项集：项的集合，如{\(a\)}、{\(b\), \(e\)}等 \(k\)项集：包含\(k\)个项的项集关联规则挖掘 \(A\)、\(B\)均为项集，且\(A\cap B=\varnothing\) \(A\Rightarrow B\) \(A\)为前项（先导）、B为后项（后继）表示当项集\(A\)出现时，很可能项集\(B\)也出现关联规则的置信度 \(置信度=\dfrac{A\text{、}B\text{同时出现的次数}}{A\text{出现的次数}}\) 衡量发生\(A\)的情况下，\(B\)也发生的概率最小置信度由用户或专家给定样本数足够多，才能消除偶然性，置信度才可靠关联规则的支持度 \(支持度=\dfrac{A\text{、}B\text{同时出现的次数}}{\text{总事务数量}}\) 衡量\(A\)、\(B\)同时发生的概率最小支持度支持度大于等于最小支持度，则称\(A\cup B\)为频繁项集 \(A\cup B\)为频繁项集，且\(A\Rightarrow B\)的置信度大于等于最小置信度，则称\(A\Rightarrow B\)为强规则强规则可用于指导实际关联分析的目标：挖掘强规则强规则挖掘方法找出所有频繁项集找出所有候选项集（使用Apriori算法）求各项集的支持度挑选频繁项集找出所有强规则从频繁项集找出所有关联规则求各关联规则置信度挑选强规则频繁项集挖掘：Apriori算法基本定理频繁项集的子集也是频繁项集非频繁项集的超集不是频繁项集工作过程生成候选1项集挑选频繁1项集利用频繁1项集生成候选2项集挑选频繁2项集利用频繁2项集生成候选3项集 …… 算法实现(9-38) 自连接：生成可能的(k+1)项集剪枝：删除非频繁(k+1)项集计算每个候选项集的支持数遍历事务数据库，对每个候选项集的支持数逐一统计(9-42) 构建两颗树候选n项集的hash树事务的n项子集树将这两棵树对齐产生强规则对频繁项集\(X\)，产生其所有真子集候选关联规则\(c\Rightarrow X-c\) \(c\)是\(X\)的某个真子集利用定理剪枝如果\(c\Rightarrow X-c\)的置信度不达阈值，则将\(c\)替换为其子集时也一定不达阈值频繁项集挖掘：FP增长算法解决的问题避免多次硬盘IO的代价减少每次遍历考虑的事务数量 FP树：事务数据库的压缩表示根节点为null，其它节点包含一个项和一个计数每个事务对应FP树上的一条路径提高FP树的压缩度事务中的项按支持度递减序排序删除每条事务中的非频繁项条件FP树参考使用项头表记录指针，用于辅助频繁项集的生成序列模式挖掘与关联规则挖掘的区别：\(A\)发生的情况下\(B\)可能随后发生基本概念序列：由元素组成序列的长度 k-序列元素：由项组成项（事件）子序列序列模式挖掘即挖掘频繁子序列基本定理非频繁序列\(s\)的子序列也是非频繁的子图模式挖掘基本概念 \(k\)-图：有\(k\)条边或\(k\)个顶点的图 GraphApriori算法聚类分析基本概念聚类分析：找到数据对象的簇，使得簇内数据间的距离最小化，不同簇数据间的距离最大化聚类任务的类型划分聚类、层次聚类互斥聚类、重叠聚类、模糊聚类完全聚类、部分聚类簇的不同类型明显分离的：每个对象到同簇中每个对象的距离比到不同簇中任意对象的距离都近基于原型的：每个对象到定义该簇的原型（质心/代表性个体）的距离比到其他簇的原型的距离更近基于图的：结点是数据对象，边是对象之间的联系，簇定义为连通分支其中两个对象是相连的，仅当它们的距离在指定的范围之内基于密度的：簇是对象的稠密区域概念簇：簇定义为有某种共同性质的对象的集合基于原型的聚类 K均值聚类流程选择\(K\)个点作为初始质心 repeat 将每个点指派到最近（欧氏距离、余弦相似度、相关系数、Jaccard系数等）的质心，形成\(K\)个簇重新计算每个簇的质心 until 质心不发生变化（少量点所属簇发生改变）评估指标 SSE：误差平方和，体现簇内个体的集中程度，越小越好一定收敛增大\(K\)值可缓解以下问题处理具有不同尺寸的簇处理不同密度的簇处理非球型的簇模糊C均值聚类流程选择一个初始模糊伪划分，即对所有的\(w_{ij}\)赋值 repeat 使用模糊伪划分，计算每个簇的质心重新计算模糊伪划分，即\(w_{ij}\) until 质心不发生变化 p值越大，所有簇的质心越趋向全局质心越接近1，越接近K均值使用混合模型的聚类优点能识别不同大小的簇能识别不同密度的簇比K均值、模糊C均值更一般的聚类方法缺点速度慢只包含少量数据点时不适用自组织映射优点有利于聚类结果可视化缺点用户必须选择参数、领域函数、网格类型和质心个数一个SOM簇通常并不对应于单个自然簇 SOM缺乏具体的目标函数 SOM不保证收敛基于密度的聚类　　寻找被低密度区域分离的高密度区域 DBSCAN 优点可以发现任意形状的簇缺点高维数据密度定义困难不能处理密度变化太大的簇需要计算所有点对的邻近度，计算开销可能很大基于网格的聚类优点快速有效缺点依旧无法处理密度差距较大的情况依旧无法处理高维的问题边缘缺失子空间聚类优点提供了搜索子空间发现簇的有效技术用一组不等式概括构成一个簇的单元列表的能力缺点维度的指数复杂度 DENCLUE 优点发现不同形状、不同大小的簇擅长处理噪声和离群点缺点依旧无法处理密度不相同的数据层次聚类算法凝聚层次聚类流程计算相似度矩阵每个数据形成一个簇 repeat 合并最近的两个簇更新邻接矩阵 until 只剩下一个簇实际上是距离矩阵的不断合并、更新过程两个簇的相似度的计算方法发现非椭球形簇对噪音数据或异常点不敏感最小距离 √ × 最大距离 × √ 平均距离 × √ 沃德法 × √ 最小距离最大距离平均距离簇中心距离沃德法：两个簇的相似度基于两个簇合并后方差的增加分裂层次聚类基于最小生成树可伸缩的层次聚类：CURE 无法识别不同密度的簇基于图的聚类边的权重等于两个点之间的近似性变色龙算法：Chamelon 簇间相对接近度和簇内相对连接度两个主要属性基本思想：上述两个主要属性合并前后变化不大，这两个簇才应该合并典型应用场景：空间数据任意形状、方向、非一致的大小簇间密度不一致，簇内密度多变存在特殊条纹异常检测基本概念异常检测：发现与大部分其他对象不同的对象挑战漏判（异常点成群结队出现）误判（多个接近的正常点全被判为异常点）基于统计的方法在数据的概率分布模型中以低概率出现的点混合模型方法正常数据概率分布+离群点概率分布（通常取均匀分布）优缺点可提供置信度识别数据集的具体分布基于邻近度的方法计算每对数据点之间的距离定义异常点第k个最近邻距离最大的n个点到k近邻的平均距离最大的n个点距离D内相邻点数目小于p的点定义离群点得分为该对象周围密度的逆基于密度的方法绝对密度给定半径内的点计数相对密度点x的密度与它的k最近邻的平均密度之比作为相对密度基于聚类的方法离群点不强属于任何簇　　‍

如何通过高效复习数据挖掘？

相关推荐