您现在的位置:CDN高防 > 服务器租用帮助 > 爬虫对服务器 CPU,内存和网速的影响

爬虫对服务器 CPU,内存和网速的影响

发布时间:2020-02-09 23:20:54   文章来源:未知   作者:admin
本文由admin编辑,关键词:爬虫服务器,标题:爬虫对服务器 CPU,内存和网速的影响,主要内容讲解的是:这里介绍爬虫对服务器的影响,主要是给小白同学普及一下爬虫的基础知识。在我们写爬虫的时候,首先会想到开多线程,如果使用的语言是Python,很不幸,因为Python存在 GIL,在任
这里介绍爬虫对服务器的影响,主要是给小白同学普及一下爬虫的基础知识。
在我们写爬虫的时候,首先会想到开多线程,如果使用的语言是Python,很不幸,因为Python存在 GIL,在任何时候,CPU内只有一条线程在运行,但是Python的多线程也能提高爬虫的速度,并且我们用python的多线程去写爬虫的时候,速度并不慢,这是为何呢?因为爬虫是偏向于io的,网络IO和磁盘io是爬虫的最大瓶颈,现在CPU的处理速度很快,相对于请求来说,CPU的速度更快。网络请求需要等待对方服务器的响应,这个过程比较慢。而下载到数据后往自己数据库插入数据需要等待自己的磁盘响应。那么有没有一个更好的方法实现爬虫的并发下载呢?
答案是 : 有,我们可以使用第三方的框架,比如使用异步框架 gevent,tornado等,或者是Python的多进程+ 异步方法,可以大大的提高我们的下载速度。
直接粘贴两张图片,第一种是消耗CPU和内存和带宽,第二张图片是多进程使用。
爬虫对服务器 CPU,内存和网速的影响
第一种图片
爬虫对服务器 CPU,内存和网速的影响
第二种图片
在爬取某个网站的时候,同时开启了64个进程,并且是异步的方法,下载速度稳定在700k左右,因为公司运维给网络限速了,不可能提高网速了,然后是内存消耗是87%,内存是12G,CPU消耗是百分之百,CPU消耗为何这么高呢?主要是数据解析需要消耗CPU和进程切换也需要消耗CPU。一个网页的大小应该在10k到20k之间,粗略统计一下,一分钟能下载1750个网页,包括数据的下载,解析和入库整个过程。这个下载速度是1750*60分钟 等于105000,也就是说一个小时是能下载十万个网页。
这个速度怎么样?我觉得这个下载速度是非常的慢,为何,因为这个网址他封ip了,需要通过代理去访问他们的服务器,这也是非常耗时的一个过程,只能通过ip池去解决,ip池里面维护了1000左右有效ip,并且有专门的服务去做验证,可以随时抽取一个ip去抓取目标网站。理想的状态是一分钟抓取3000条数据,一天24小时抓取500万左右个网页数据。
小伙伴是不是很惊讶?网络百分之九十的流量都是爬虫给贡献的,爬虫给目标网站造成了不小的压力,为了避免给目标网站造成破坏,不建议开启过多的并发。
CDN高防专业提供python爬虫ip代理服务器,千万ip库,随便切换;十七年的IDC行业服务经验;拥有全球超过120个国家地区的数据中心!详询CDN高防客服QQ:317197518 。
本文tag: 爬虫服务器 爬虫vps 爬虫ip服务器
本文链接:http://www.cdngaofang.com/news/767.html
下一篇:爬虫服务器用多IP站群服务器好不好
上一篇:欧洲直播网站app选择英国服务器

相关推荐:

随机推荐:

QQ:317197518

电子邮箱:317197518@qq.com

公司业务:我们提供海内外服务器租用,公司产品丰富:独立服务器、虚拟主机、ADSL拨号、VPS云主机等,价格便宜,欢迎选购

公司地址:重庆市渝北区赛迪路2号金山商业中心A座6F

CDN高防:一家全国领先的真实硬防服务器的提供商
Copyright 2018-2020 © www.cdngaofang.com All Rights Reserved.

分享按钮