摘要: 1.抓取索引页内容 利用requests请求目标站点,得到索引网页HTML代码,返回结果。 2.抓取详情页内容 解析返回结果,得到详情页的链接,并进一步抓取详情页的信息。 获取页面网址: 单个页面代码: 图片地址 3.下载图片与保存数据库 将图片下载到本地,并把页面信息及图片URL保存到MongDB 阅读全文
posted @ 2019-08-06 14:41 嗨学编程 阅读(433) 评论(0) 推荐(1) 编辑
摘要: 用到的包有requests BeautSoup a56爆大奖在线娱乐爬的是天涯论坛的财经论坛:‘http://bbs.tianya.cn/list.jsp?item=develop’ 它里面的其中的一个帖子的URL:‘http://bbs.tianya.cn/post develop 2279340 1.shtml’ 阅读全文
posted @ 2019-08-04 15:49 嗨学编程 阅读(675) 评论(0) 推荐(0) 编辑
摘要: 第一步: 先分析这个url,”?“后面的都是它的关键字,requests中get函数的关键字的参数是params,post函数的关键字参数是data, 关键字用字典的形式传进去,这样a56爆大奖在线娱乐们就可以自己改关键字去搜索别的东西或者是搜索别的页面,a56爆大奖在线娱乐对手机比较感兴趣a56爆大奖在线娱乐 就爬取了关于手机的页面。 第二步: 直 阅读全文
posted @ 2019-08-04 15:48 嗨学编程 阅读(820) 评论(0) 推荐(0) 编辑
摘要: 转载:/binglansky/p/8534544.html 开发环境: python2.7 + win10 开始先说一下,访问youtube需要那啥的,请自行解决,最好是全局代理。 实现代码: coding:utf 8 author : Corleone 阅读全文
posted @ 2019-08-04 14:25 嗨学编程 阅读(1255) 评论(0) 推荐(0) 编辑
摘要: 安装开发需要的一些库 (1) 安装mysql 的驱动:在Windows上按win+r输入cmd打开命令行,输入命令pip install pymysql,回车即可。 (2) 安装自动化测试的驱动selenium:在命令行中输入pip install selenium回车。 (3) 安装标签解析库py 阅读全文
posted @ 2019-08-04 14:12 嗨学编程 阅读(1088) 评论(0) 推荐(0) 编辑
摘要: 因为进程也不是越多越好,a56爆大奖在线娱乐们计划分3个进程执行。意思就是 :把总共要抓取的28页分成三部分。 怎么分呢? 看上面代码,a56爆大奖在线娱乐们就把1~29分成了三部分,list里三个range。 2、还记得a56爆大奖在线娱乐们抓取基金网站内容的getData()函数? 函数是有2个参数:一个开始页码,一个结束页码,也就是从第start 阅读全文
posted @ 2019-07-22 20:26 嗨学编程 阅读(491) 评论(0) 推荐(0) 编辑
摘要: 通过python配合爬虫接口利用selenium实现自动化打开chrome浏览器,进行百度关键词搜索。 1、安装python3,访问官网选择对应的版本安装即可,最新版为3.7。 2、安装selenium库。 使用 pip install selenium 安装即可。 同时需要安装chromedriv 阅读全文
posted @ 2019-07-22 14:10 嗨学编程 阅读(1896) 评论(0) 推荐(0) 编辑
摘要: 学Python要避免哪些坑?零基础怎么入门Python?Python入门简单、语法简洁、功能强大,非常适合零基础入门IT行业的人学习。随着人工智能时代的来临,企业纷纷选择使用Python进行开发,Python从业人员需求及薪资福利也在不断提高。很多人选择学Python,但零基础学Python一定要避 阅读全文
posted @ 2019-07-20 15:45 嗨学编程 阅读(380) 评论(0) 推荐(0) 编辑
摘要: 爬虫的抓取方式有好几种,正则表达式,Lxml(xpath)与BeautifulSoup,a56爆大奖在线娱乐在网上查了一下资料,了解到三者之间的使用难度与性能 三种爬虫方式的对比。 这样一比较a56爆大奖在线娱乐a56爆大奖在线娱乐选择了Lxml(xpath)的方式了,虽然有三种方式,但肯定是要选择最好的方式来爬虫,这个道理大家都懂,另外有兴趣的朋友也 阅读全文
posted @ 2019-07-19 14:52 嗨学编程 阅读(534) 评论(0) 推荐(0) 编辑
摘要: 爬取公众号的方式常见的有两种 通过搜狗搜索去获取,缺点是只能获取最新的十条推送文章 通过微信公众号的素材管理,获取公众号文章。缺点是需要申请自己的公众号。 今天介绍a56爆大奖在线娱乐通过抓包PC端微信的方式去获取公众号文章的方法。相比其他的方法非常方便。 如上图,通过抓包工具获取微信的网络信息请求,a56爆大奖在线娱乐们发现每次下 阅读全文
posted @ 2019-07-17 14:52 嗨学编程 阅读(669) 评论(0) 推荐(0) 编辑