51job(前程无忧官网)1万条招聘信息的爬取
标签: 爬虫实战 51Job数据爬虫 可视化
以51job网上爬取的一万条电商类招聘信息为样本,具体分析该行业的就业前景、工作地点、平均薪资和任职要求等
本文主要通过词云图和可视化图表对数据进行展示描述
1.先上样本信息图(由于太多,只截了一部分)
第一张图包括了职位名称、公司名称、工作地点、薪资、发布时间(公司的发布时间,我爬的时候是2020.6.24号)和详情页的url链接;第二张图中就是链接网页的具体内容,描述了该岗位的工作信息和任职要求 。
以下数据可视化全部基于上述爬取的样本信息。
2.词云图展示
(1)工作岗位
通过对职位名称图的观察分析,发现在采集的一万条样本信息中,管理类的岗位需求量较高,如运营、经理、主管、总监、客服等均排名前几位;技术类的岗位需求相对较少,如美工,设计、平面等出现的次数较少;同时随着社交电商的发展以及疫情的影响,电商直播,电商主播等形式也渐渐丰富,直播类岗位较之前有了明显增加;
同时电商类岗位也常与电商平台结合起来,如亚马逊,淘宝,天猫,京东,速卖通等;
随着全球化的发展,商品的海内外流动更加频繁,跨境电商前景颇好。
(2)工作地点
通过观察分析,发现目前做电商最热门的城市还是北京、上海、广州、深圳和东南沿海经济发达的城市,相较之下,一些内地城市,如武汉、长沙、昆明、西安等提供的岗位数量较少,电商发展受限;
另外,一些西南地区如成都、重庆等新一线城市政策环境良好,电商岗位需求量增加,对人才的吸引力强,电商发展的潜力很大。
(3)任职要求
观察分析后,发现电商企业青睐运营管理类人才,要求有一定的实操经验,能够与国内知名的电商平台结合,熟悉电商平台的运行规则和活动推广,了解店铺的上新维护,以客户为导向,提供高质量的服务体验。
在求职者素质方面,电商企业比较看重求职者的能力,学历要求不高,具有责任心和团队合作精神,具有良好的沟通能力等。
3.可视化图表
(1)平均薪资和岗位数量分布
Excel数据分析的目的是得出目前电商行业的平均薪资,对北上广深杭——大多数有意从事电商行业的毕业生可能会选择的城市做具体的分析。
北京
广州
上海
深圳
杭州
(2)北上广深杭与全国平均薪资水平对比
在一万条样本数据中,广州市计算得出的平均薪资是0.814万/月,低于全国平均薪资0.86万/月,也是五个城市中唯一一个薪资水平低于全国平均水平的城市;
而北京市平均薪资高达1.056万/月,领跑全国,上海市紧随其后,杭州深圳平均薪资也快接近1万,发展潜力很大。
4.爬虫代码
主要采用requests和BeautifulSoup库对 前程无忧招聘网进行爬取,搜索框键入电商,得到跳转页面,前1万条电商职位数据即为本文采集的样本数据。
爬取的部分代码信息块(主要是工作岗位、公司名、地点、发布时间、薪资、详情页链接)
def getjoblist(lf,joburl,lst): #定义工作的(每一页的,后面会随着for循环不断到第二页)列表,里面存放职位名等信息和每个详情页的url链接,lst表示每一大页的链接
la=[] #定义空列表存放职位名
lb=[] #存放公司名
lc=[] #存放地点
ld=[] #存放薪资
le=[] #存放发布时间
for joburl in lst:
html=gethtml(joburl)
soup=BeautifulSoup(html,'html.parser')
#lf=[] #存放每个页面中对应的工作列表详情页的链接
#应该还要有下一页
la.append('职位名')
lf.append('详情页链接')
for i in soup.find_all('p',class_='t1'):
la.append(i.text.split(' ')[20])
lf.append(i.a['href'])
for i in soup.find_all('span',class_='t2'):
lb.append(i.string)
for i in soup.find_all('span',class_='t3'):
lc.append(i.string)
for i in soup.find_all('span',class_='t4'):
ld.append(i.string)
for i in soup.find_all('span',class_='t5'):
le.append(i.string)
有需要完整代码块的同学可以私信我哦
数据可视化正在学习中
欢迎各位兄弟姐妹们前来指导
智能推荐
使用Python爬取51job招聘网的数据
使用Python爬取51job招聘网的数据 进行网站分析 获取职位信息 存储信息 最终代码 进行网站分析 进入https://www.51job.com/这个网站 我在这就以python为例搜索职位跳转到这个页面 按F12进行查看每个职位的信息在哪个包中 我们点进这个包中搜索 发现这组数据在Script标签中,类似于json数据,同时发现其链接的URL的键值为job_href我们可以写一个正则表达...
python爬取51job关于python的招聘信息
前言 本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。 作者:Python学习与数据挖掘 PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取http://t.cn/A6Zvjdun 为方便大家清晰了解当前就业市场,小编对招聘网址51job进行了数据爬取,共计获取5万份招聘数据,代码、数据仅用于技术交流使用,需要...
Spring-IOC控制反转
一.概念 控制反转(Inversion of Control,缩写为IoC),是面向对象编程中的一种设计原则,可以用来减低计算机代码之间的耦合度。其中最常见的方式叫做依赖注入(Dependency Injection,简称DI),还有一种方式叫“依赖查找”(Dependency Lookup)。通过控制反转,对象在被创建的时候,由一个调控系统内所有对象的外界实体将其所依赖的...
txt文件上传后直接解析
** 废话不多说,直接上代码 用postman请求数据测试; 完美拿到了数据。...
搜索二维矩阵
问题描述: 编写一个高效的算法来判断 m x n 矩阵中,是否存在一个目标值。该矩阵具有如下特性: 每行中的整数从左到右按升序排列。 每行的第一个整数大于前一行的最后一个整数。 来源:力扣(LeetCode) 链接:https://leetcode-cn.com/problems/search-a-2d-matrix 著作权归领扣网络所有。商业转载请联系官方授权,非商业转载请注...
猜你喜欢
vue的生命周期
一.概述 vue对象初始化过程中,会执行到beforeCreate,created,beforeMount,mounted 这几个钩子的内容 **beforeCreate **:数据还没有监听,没有绑定到vue对象实例,同时也没有挂载对象 created** **:数据已经绑定到了对象实例,但是还没有挂载对象 beforeMount*** 模板已经编译好了,根据数据和模板已经生成了对应的元素对象,...
学习淘淘商城第四十七课(搜索功能Service实现)
首先我们在taotao-search-interface工程新建一个接口类SearchService,并在接口类中添加一个接口,如下图所示。 接着,我们到taotao-search-service工程添加一个实现类SearchServiceImpl,并实现SearchService接口,...
热压烧结制备AlN/球形碳复相微波衰减材料及其性能
Microwave attenuating material is a kind of absorbing material used to absorb electromagnetic waves in a specific frequency band. It is mainly used in vacuum electronic devices such as radar, early wa...
阈值分割
阈值分割 设置一定的条件,将像素值分为两类或多类,并修改图像的像素值,主要针对灰度图像 注:阈值分割不是二值化,因为阈值分割的结果不是两个值 固定阈值分割(经验阈值) 阈值的方式有五种: 自适应阈值分割 可以看出固定阈值分割在整张图像中应用一个阈值,不能够适用于明暗不均的图像分割。自适应阈值每次取出图像的一小部分计算阈值,使得在一张图像中不同部分使用不同的阈值,可以更好分割图像。 小区域阈值计算方...
这一篇你一定别看,赶紧去下载微信读书吧!
大家好,我是天作。 这个世界上有两件事,几乎所有人都认为是好事,但实际真正去做这两件事的人少之又少,或者说能坚持下来的人不多。 这两件事就是读书和运动。 回想一下,你有多久没有认真的读完过一本书了?你有多久没运动了? 记得白岩松说过:“人生是一个棋盘,当你读的书少,棋盘上的棋子很少,不成势,随时可能被人吃掉。读的足够多,人生就成势了。 ” 我理解的这句话,大概就是...