目录:
1.爬虫获取网页源代码
2.python 爬虫 网页
3.网页爬虫程序
4.用python爬取网站数据代码
5.爬虫获取网页
6.python3.9爬取网页教程
7.用python爬取网站
8.通用爬虫爬取网页的流程
9.python网页爬虫案例
10.python网页爬虫教程
1.爬虫获取网页源代码
如果你对用Python爬取网页感到无法下手,希望这篇文章可以帮到你,让你有个小小的开始!心急的话,可以直接看最后的完整代码一、准备打开Jupyter Notebook,新建New一个Python3文件,导入import库文件requests,这个库帮助我们访问网络资源。
2.python 爬虫 网页
把我们想要访问的网址用变量名url存好,用requests的get方式访问url,把结果返回给变量r(实例化)。二、状态码
3.网页爬虫程序
为了检验访问是否正常,requests提供一个状态码status_code,供我们查询网站(或服务器)给我们的回复。403代表着服务器知道我们要干什么,但拒绝给我们服务。
4.用python爬取网站数据代码
用text方法,得到返回的网页源代码,里面有句英文。
5.爬虫获取网页
这是为什么呢?三、User-Agent
6.python3.9爬取网页教程
因为requests在帮我们访问网站的时候,传给服务器的头部headers里,明明白白写着python-requests/2.21.0(requests的版本号),这不是在门外喊着要抢劫,人家把门给关了不是?!
7.用python爬取网站
既然是User-Agent有问题,我们就找个服务器认可的User-Agent在浏览器地址栏输入网址,在主页空白处右键检查(Chrome浏览器),依次找到Network—>Doc—>Name—>点击和网址相同的文件—>Headers—>Request headers—>User-Agent:这里面就是服务器认可的浏览器的User-Agent。
8.通用爬虫爬取网页的流程
总共4个,我们随便选择1个,以字典的形式赋给一个变量;并在get函数中作为第二参数传递给服务器;再次输出状态码为200,访问成功。四、编码
9.python网页爬虫案例
解码方法encoding可以得到requests通过网页源代码头部分析得出编码名称 utf-8。
10.python网页爬虫教程
如果访问被拒绝时,我们通过刚开始的网页源代码没有发现设置编码,默认为 ISO-8859-1,不能显示中文。
还有一种方法apparent_encoding,可以通过分析网页内容来得到编码,有时候网站没有头部标识时,为了能正常显示,一般常用 apparent_encoding 替代 encoding五、状态码异常。
raise_for_status的作用就是返回一个异常错误requests.HTTPError,当不是200的时候;可以说,只要返回的不是200,都不算是访问成功!
我们用try……except语句来捕获异常;先执行try代码块里的语句,raise_for_status检测状态码不是200,就跳到except语句,返回一个提示。六、完整代码
整个代码的作用,就是输出指定网址的网页源代码。
上图是我加了注释的代码。
为了使代码更强健,万一遇到网络问题,可以加个超时timeout秒数设定,只要超过设定值,就不再等待这里的时间是包含连接connect和读取read的总时间,如果想让requests一直等下去,就设置为None。
昨天我爬取小说,如果设置timeout,可能就不会宕机了
2. 分享目的仅供大家学习和交流,您必须在下载后24小时内删除!
3. 不得使用于非法商业用途,不得违反国家法律。否则后果自负!
4. 本站提供的源码、模板、插件等等其他资源,都不包含技术服务请大家谅解!
5. 如有链接无法下载、失效或广告,请联系管理员处理!
6. 本站资源售价只是赞助,收取费用仅维持本站的日常运营所需!
7. 如遇到加密压缩包,请使用WINRAR解压,如遇到无法解压的请联系管理员!
8. 精力有限,不少源码未能详细测试(解密),不能分辨部分源码是病毒还是误报,所以没有进行任何修改,大家使用前请进行甄别
丞旭猿论坛
暂无评论内容