摘要: 数据的split-apply-聚合, 案例-缺失值-重采样-加权平均-线性回归 阅读全文
posted @ 2019-12-10 20:11 致于数据科学家的小陈 阅读(856) 评论(0) 推荐(0) 编辑
摘要: 用过浅谈提升树公式 和案例, 来引入 "残差训练"合理性, 引入 XGBoot 的推导需克服的难点. 阅读全文
posted @ 2019-12-09 22:45 致于数据科学家的小陈 阅读(278) 评论(0) 推荐(0) 编辑
摘要: 加深对决策树, 集成学习理解, 如bagging, boosting, 为接下来XGBoost推导做准备 阅读全文
posted @ 2019-12-09 18:50 致于数据科学家的小陈 阅读(381) 评论(0) 推荐(0) 编辑
摘要: 基于信息熵的决策树构建过程, 随机森林理解 阅读全文
posted @ 2019-12-09 00:31 致于数据科学家的小陈 阅读(648) 评论(0) 推荐(0) 编辑
摘要: Adaboost 算法理解 阅读全文
posted @ 2019-12-08 17:24 致于数据科学家的小陈 阅读(552) 评论(0) 推荐(0) 编辑
摘要: Bagging, 待补充一个 "降低方差"的严格证明 阅读全文
posted @ 2019-12-07 23:40 致于数据科学家的小陈 阅读(455) 评论(0) 推荐(0) 编辑
摘要: 集成学习初识, 民主决策. 阅读全文
posted @ 2019-12-07 21:24 致于数据科学家的小陈 阅读(2989) 评论(0) 推荐(0) 编辑
摘要: 数据分析重点. 同维度下,对不同字段聚合 groupbby(key).agg({'字段1':'aggfunc1', '字段1':'aggfunc2''..} 阅读全文
posted @ 2019-12-07 17:50 致于数据科学家的小陈 阅读(1352) 评论(0) 推荐(0) 编辑
摘要: 用数学定义 "高内聚, 低耦合", 很有难度其实, 然后 转为 最优化问题, 最后用到特征分解来求解. 阅读全文
posted @ 2019-12-06 22:22 致于数据科学家的小陈 阅读(631) 评论(0) 推荐(0) 编辑
摘要: LDA-作为线性判别 分类器 的推导, 其实就是一个贝叶斯公式的过程, 涉及先验概率, 抽样分布, 多元正态分布, 协方差矩阵等, 还有, "优化的思想" 阅读全文
posted @ 2019-12-05 16:20 致于数据科学家的小陈 阅读(1446) 评论(0) 推荐(0) 编辑
摘要: 逻辑回归推导, 损失函数, 梯度推导, 证明是凸函数, 模型应用 阅读全文
posted @ 2019-12-04 14:41 致于数据科学家的小陈 阅读(394) 评论(0) 推荐(0) 编辑
摘要: 逻辑回归的 logist 函数推导, 从概率论视角. 阅读全文
posted @ 2019-12-03 15:47 致于数据科学家的小陈 阅读(465) 评论(0) 推荐(0) 编辑
摘要: 模型泛化优化之 L1 L2 正则化. 涉及正则化认识, 梯度方向来理解, 交叉校验调参, L1 L2比较等 阅读全文
posted @ 2019-12-03 00:00 致于数据科学家的小陈 阅读(561) 评论(0) 推荐(0) 编辑
摘要: 模型优化评估, 扩充基, 过拟合, 模型的Bias, Variance 阅读全文
posted @ 2019-12-02 16:09 致于数据科学家的小陈 阅读(540) 评论(0) 推荐(0) 编辑
摘要: group by 过程, 数据分析中,绝对是最为重要的部分, 没有之一. 阅读全文
posted @ 2019-12-01 21:29 致于数据科学家的小陈 阅读(1831) 评论(0) 推荐(0) 编辑