如何从网站建设转向应用开发以增加收入?

摘要:做网站赚钱还是做应用赚钱,档案信息网站建设,手机网页版,青岛网站seo价格文章目录一、概率类模型的评估指标1、布里尔分数Brier Score对数似然函数Log Loss二、calibration_curve:
做网站赚钱还是做应用赚钱,档案信息网站建设,手机网页版,青岛网站seo价格文章目录一、概率类模型的评估指标1、布里尔分数Brier Score对数似然函数Log Loss二、calibration_curve#xff1a;校准可靠性曲线三、多项式朴素贝叶斯以及其变化四、伯努利朴素贝叶斯五、改进多项式朴素贝叶斯#xff1a;补集朴素贝叶斯ComplementNB六、文本分类案例TF-ID… 文章目录一、概率类模型的评估指标1、布里尔分数Brier Score对数似然函数Log Loss二、calibration_curve校准可靠性曲线三、多项式朴素贝叶斯以及其变化四、伯努利朴素贝叶斯五、改进多项式朴素贝叶斯补集朴素贝叶斯ComplementNB六、文本分类案例TF-IDF总结一、概率类模型的评估指标 1、布里尔分数Brier Score 概率预测的准确程度被称为“校准程度”是衡量算法预测出的概率和真实结果的差异的一种方式。一种比较常用的指标叫做布里尔分数它被计算为是概率预测相对于测试样本的均方误差表示为 其中N是样本数量 为朴素贝叶斯预测出的概率 是样本所对应的真实结果只能取到0或者1如果事件发生则为1如果不发生则为0。这个指标衡量了我们的概率距离真实标签结果的差异其实看起来非常像是均方误差。布里尔分数的范围是从0到1分数越高则预测结果越差劲校准程度越差因此布里尔分数越接近0越好。由于它的本质也是在衡量一种损失所以在sklearn当中布里尔得分被命名为brier_score_loss。 对数似然函数Log Loss 另一种常用的概率损失衡量是对数损失log_loss又叫做对数似然逻辑损失或者交叉熵损失它是多元逻辑回归以及一些拓展算法比如神经网络中使用的损失函数。它被定义为对于一个给定的概率分类器在预测概率为条件的情况下真实概率发生的可能性的负对数如何得到这个损失函数的证明过程和推导过程在逻辑回归的章节中有完整得呈现。由于是损失因此对数似然函数的取值越小则证明概率估计越准确模型越理想。值得注意得是对数损失只能用于评估分类型模型。对于一个样本如果样本的真实标签yture 在{0,1}中取值并且这个样本在类别1下的概率估计为ypred 则这个样本所对应的对数损失是 二、 calibration_curve 可以看到高斯贝叶斯的概率分布是两边非常高中间非常低几乎90%以上的样本都在0和1的附近可以说是置信度最高的算法但是贝叶斯的布里尔分数却不如逻辑回归这证明贝叶斯中在0和1附近的样本中有一部分是被分错的。支持向量贝叶斯完全相反明显是中间高两边低类似于正态分布的状况证明了我们刚才所说的大部分样本都在决策边界附近置信度都徘徊在0.5左右的情况。而逻辑回归位于高斯朴素贝叶斯和支持向量机的中间即没有太多的样本过度靠近0和1也没有形成像支持向量机那样的正态分布。一个比较健康的正样本的概率分布就是逻辑回归的直方图显示出来的样子。 避免混淆概率密度曲线和概率分布直方图 大家也许还记得我们说过我们是假设样本的概率分布为高斯分布然后使用高斯的方程来估计连续型变量的概率。怎么现在我们绘制出的概率分布结果中高斯普斯贝叶斯的概率分布反而完全不是高斯分布了呢注意千万不要把概率密度曲线和概率分布直方图混淆。 在称重汉堡的时候所绘制的曲线是概率密度曲线横坐标是样本的取值纵坐标是落在这个样本取值区间中的样本个数衡量的是每个X的取值区间之内有多少样本。服从高斯分布的是X的取值上的样本分布。 现在我们的概率分布直方图横坐标是概率的取值[0,1]纵坐标是落在这个概率取值范围中的样本的个数衡量的是每个概率取值区间之内有多少样本。这个分布是没有任何假设的。 校准可靠性曲线 在这里我主要来为大家展示如果使用sklearn中的概率校正类CalibratedClassifierCV来对二分类情况下的数据集进行概率校正。 class sklearn.calibration.CalibratedClassifierCV (base_estimatorNone, method’sigmoid’, cv’warn’)这是一个带交叉验证的概率校准类它使用交叉验证生成器对交叉验证中的每一份数据它都在训练样本上进行模型参数估计在测试样本上进行概率校准然后为我们返回最佳的一组参数估计和校准结果。每一份数据的预测概率会被求解平均。注意类CalibratedClassifierCV没有接口decision_function要查看这个类下校准过后的模型生成的概率必须调用predict_proba接口。 base_estimator 需要校准其输出决策功能的分类器必须存在predict_proba或decision_function接口。
阅读全文