CXYVIP官网源码交易平台_网站源码_商城源码_小程序源码平台-丞旭猿论坛
CXYVIP官网源码交易平台_网站源码_商城源码_小程序源码平台-丞旭猿论坛
CXYVIP官网源码交易平台_网站源码_商城源码_小程序源码平台-丞旭猿论坛

python爬虫爬网页的源码(这都可以)爬虫爬取网站数据代码,爬取90%的网页,只需学会这13行爬虫通用代码框架——Python版!,源码交易平台,

1.爬虫获取网页源代码

如果你对用Python爬取网页感到无法下手,希望这篇文章可以帮到你,让你有个小小的开始!心急的话,可以直接看最后的完整代码一、准备打开Jupyter Notebook,新建New一个Python3文件,导入import库文件requests,这个库帮助我们访问网络资源。

2.python 爬虫 网页

把我们想要访问的网址用变量名url存好,用requests的get方式访问url,把结果返回给变量r(实例化)。二、状态码

3.网页爬虫程序

为了检验访问是否正常,requests提供一个状态码status_code,供我们查询网站(或服务器)给我们的回复。403代表着服务器知道我们要干什么,但拒绝给我们服务。

4.用python爬取网站数据代码

用text方法,得到返回的网页源代码,里面有句英文。

5.爬虫获取网页

这是为什么呢?三、User-Agent

6.python3.9爬取网页教程

因为requests在帮我们访问网站的时候,传给服务器的头部headers里,明明白白写着python-requests/2.21.0(requests的版本号),这不是在门外喊着要抢劫,人家把门给关了不是?!

7.用python爬取网站

既然是User-Agent有问题,我们就找个服务器认可的User-Agent在浏览器地址栏输入网址,在主页空白处右键检查(Chrome浏览器),依次找到Network—>Doc—>Name—>点击和网址相同的文件—>Headers—>Request headers—>User-Agent:这里面就是服务器认可的浏览器的User-Agent。

8.通用爬虫爬取网页的流程

总共4个,我们随便选择1个,以字典的形式赋给一个变量;并在get函数中作为第二参数传递给服务器;再次输出状态码为200,访问成功。四、编码

9.python网页爬虫案例

解码方法encoding可以得到requests通过网页源代码头部分析得出编码名称 utf-8。

10.python网页爬虫教程

如果访问被拒绝时,我们通过刚开始的网页源代码没有发现设置编码,默认为 ISO-8859-1,不能显示中文。

还有一种方法apparent_encoding,可以通过分析网页内容来得到编码,有时候网站没有头部标识时,为了能正常显示,一般常用 apparent_encoding 替代 encoding五、状态码异常。

raise_for_status的作用就是返回一个异常错误requests.HTTPError,当不是200的时候;可以说,只要返回的不是200,都不算是访问成功!

我们用try……except语句来捕获异常;先执行try代码块里的语句,raise_for_status检测状态码不是200,就跳到except语句,返回一个提示。六、完整代码

整个代码的作用,就是输出指定网址的网页源代码。

上图是我加了注释的代码。

为了使代码更强健,万一遇到网络问题,可以加个超时timeout秒数设定,只要超过设定值,就不再等待这里的时间是包含连接connect和读取read的总时间,如果想让requests一直等下去,就设置为None。

昨天我爬取小说,如果设置timeout,可能就不会宕机了

© 版权声明
THE END
喜欢就支持一下吧
点赞0赞赏 分享
相关推荐
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情代码图片

    暂无评论内容