摘要: 其实,a56爆大奖在线娱乐的业务流程是, 先读取excel/csv -> pandas 数据清洗 -> 导入Mysql, 一般是做一个表append 或者是 if exist -> replace的操作 逐行来添加数据其实更加灵活和方便. 这里用的驱动是pymysql的一个包, 其实本质就是一个客户端, 服务端已经和 阅读全文
posted @ 2019-11-07 15:13 致于数据科学家的小陈 阅读(1261) 评论(0) 推荐(0) 编辑
摘要: 之前弄数据库的时候, 测试excel导mysql, 中间用pandas 处理后再入库. 直接上代码, 此种有真意, 尽在不言中. 1 #!/usr/bin/env python 2 # coding: utf-8 3 # author: chenjie131@ke.com 4 5 ''' 6 应用场 阅读全文
posted @ 2019-11-07 14:16 致于数据科学家的小陈 阅读(4021) 评论(0) 推荐(0) 编辑
摘要: 直接上代码 在做特征工程的时候, 其实可以用算法来处理特征工程的, 比如缺失值填充之类的. 这里一段code_demo是搬运来的, 不过是真滴好用呢. 阅读全文
posted @ 2019-11-05 22:48 致于数据科学家的小陈 阅读(830) 评论(0) 推荐(0) 编辑
摘要: 认识 Python 的itertools模块提供了很多 节省内存的高效迭代器 , 尤其解决了一些关于数据量太大而导致 内存溢出(outofmemory) 的场景. a56爆大奖在线娱乐们平时用的循环绝大多数是这样的. 不难发现, 这就是迭代器嘛, 真的没啥.跟join差不多. 那么它是如何节省内存的呢, 其实就是一个 阅读全文
posted @ 2019-11-05 01:14 致于数据科学家的小陈 阅读(239) 评论(0) 推荐(0) 编辑
摘要: 认识 多表连接查询 ,a56爆大奖在线娱乐感觉应该是关系型数据库最能体现其价值和灵活性的地方吧. a56爆大奖在线娱乐觉得数据库的作用, 归纳起来无非就是 存储和查询 . 一言蔽之,数据库就是能灵活地存储和查询数据. 存储上, 也是以文件的方式存的(Linux观点, 一切皆文件), 文件就是存储数据的载体, 数据库文件跟其他的数据文件 阅读全文
posted @ 2019-11-03 21:43 致于数据科学家的小陈 阅读(1713) 评论(0) 推荐(0) 编辑
摘要: skleran 处理流程 获取数据 以用sklearn的内置数据集, 先导入datasets模块. 最经典的iris数据集作为例子. 手写数字数据集 (load_digits) 包含1797个0 9的手写数字数据, a56爆大奖在线娱乐数据由8 x 8大小的矩阵构成, 矩阵中值的范围是0 16, 代表颜色的深度. 阅读全文
posted @ 2019-10-26 21:20 致于数据科学家的小陈 阅读(536) 评论(0) 推荐(0) 编辑
摘要: 认识 sklearn 官网地址: https://scikit learn.gor/stable/ 从2007年发布以来, scikit learn已成为重要的Python机器学习库, 简称sklearn, 支持包括 分类, 回归, 降维和聚类 等机器学习算法, 还包括了 特征提取, 数据处理, 模 阅读全文
posted @ 2019-10-25 23:40 致于数据科学家的小陈 阅读(408) 评论(0) 推荐(0) 编辑
摘要: 手动实现KNN算法 计算距离 取k个邻近排序 距离(欧氏) 预习 实现欧式距离 KNN 计算输入样本点,到a56爆大奖在线娱乐样本的距离 距离值向量 将距离值向量降序取前k个值 投票 预习 Counter类(计数器) Counter (计数器): 用于追踪值出现的次数 Counter 类继承dict类, 能顺颂di 阅读全文
posted @ 2019-10-20 15:29 致于数据科学家的小陈 阅读(781) 评论(0) 推荐(0) 编辑
摘要: 认识 什么是KNN KNN 即 K nearest neighbors, 是一个hello world级别, 但被广泛使用的 机器学习算法 , 中文叫 K近邻算法 , 是a56爆大奖在线娱乐基本的分类和回归方法. KNN既可用来分类, 也可用于回归, 不过a56爆大奖在线娱乐还是觉得分类好一些哦 KNN的核心思想是, 如果一个样本, 阅读全文
posted @ 2019-10-19 01:12 致于数据科学家的小陈 阅读(1042) 评论(0) 推荐(0) 编辑
摘要: 认识 梯度的本意是一个向量(矢量),a56爆大奖在线娱乐某一函数在该点处的方向导数沿着该方向取得最大值,即函数在该点处沿着该方向(此梯度的方向)变化最快,变化率最大(为该梯度的模), a56爆大奖在线娱乐感觉, 其实就是 偏导数向量方向呗 , 沿着这个 向量方向可以找到局部的极值 . Python from random impor 阅读全文
posted @ 2019-10-13 19:38 致于数据科学家的小陈 阅读(325) 评论(0) 推荐(0) 编辑
摘要: Pandas 数据筛选,去重结合group by 需求 今小伙伴有一个Excel表, 是部门里的小伙9月份打卡记录, 关键字段如下: 姓名 , 工号, 日期 , 打卡方式, 时间 , 详细位置, IP地址.... 脱敏数据: | 姓名 | 工号 | 日期 | 方式 | 时间 | ... | | : 阅读全文
posted @ 2019-10-11 21:31 致于数据科学家的小陈 阅读(3742) 评论(0) 推荐(0) 编辑
摘要: Mysql 单表查询 排序 分页 group by初识 对于select 来说, 分组聚合(((group by; aggregation), 排序 ( order by ), 分页查询 ( limit ), 等这些操作, 都是结合 where 过滤(算术表达式, 逻辑表达式, 判空, 范围过滤, 阅读全文
posted @ 2019-10-10 01:41 致于数据科学家的小陈 阅读(1465) 评论(0) 推荐(0) 编辑
摘要: Mysql 单表查询where初识 准备数据 数据基本测试 where 条件过滤 比较运算符 , 逻辑运算符, 范围判断, 空判断, 模糊查询 逻辑运算符: and, or, not Null 判断 is null; is not null 范围查询 in; between...and in 用于离 阅读全文
posted @ 2019-10-07 15:42 致于数据科学家的小陈 阅读(406) 评论(0) 推荐(0) 编辑
摘要: Mysql 库表操作初识 终端登录mysql 这里只演示win下, cmd 终端. 至于怎么在win下, linux, mac安装, 感觉这是一个入门级的百度搜索问题, 安装都搞不定, 确实有点尴尬, 好尴尬呀. 数据库操作 增删改查, 注意这里讲的数据库指的是schema哈. mysql 前提是已 阅读全文
posted @ 2019-10-07 01:24 致于数据科学家的小陈 阅读(293) 评论(0) 推荐(0) 编辑
摘要: Mysql 常见数据类型及约束 最近在跟几个不太懂技术的同事(哈哈, 其实a56爆大奖在线娱乐也不懂), 要整一个数据库项目, 然后前端, 后端, 都没有像样的, 数据输出还不是由a56爆大奖在线娱乐们控制.... 这可难受了, 然后总数被围绕着, 怎么导入数据, 导出EXCEL .... 之类的, 或者是说导入数据不方便, 怎么字段 阅读全文
posted @ 2019-10-05 22:32 致于数据科学家的小陈 阅读(606) 评论(0) 推荐(1) 编辑