51job(前程无忧官网)1万条招聘信息的爬取

标签:  爬虫实战   51Job数据爬虫   可视化

以51job网上爬取的一万条电商类招聘信息为样本,具体分析该行业的就业前景、工作地点、平均薪资和任职要求等

本文主要通过词云图和可视化图表对数据进行展示描述

1.先上样本信息图(由于太多,只截了一部分)

爬虫数据

爬取的岗位信息和职位描述
第一张图包括了职位名称、公司名称、工作地点、薪资、发布时间(公司的发布时间,我爬的时候是2020.6.24号)和详情页的url链接;第二张图中就是链接网页的具体内容,描述了该岗位的工作信息和任职要求 。

以下数据可视化全部基于上述爬取的样本信息。

2.词云图展示

(1)工作岗位

在这里插入图片描述
通过对职位名称图的观察分析,发现在采集的一万条样本信息中,管理类的岗位需求量较高,如运营、经理、主管、总监、客服等均排名前几位;技术类的岗位需求相对较少,如美工,设计、平面等出现的次数较少;同时随着社交电商的发展以及疫情的影响,电商直播,电商主播等形式也渐渐丰富,直播类岗位较之前有了明显增加;

同时电商类岗位也常与电商平台结合起来,如亚马逊,淘宝,天猫,京东,速卖通等;

随着全球化的发展,商品的海内外流动更加频繁,跨境电商前景颇好。

(2)工作地点

在这里插入图片描述
通过观察分析,发现目前做电商最热门的城市还是北京、上海、广州、深圳和东南沿海经济发达的城市,相较之下,一些内地城市,如武汉、长沙、昆明、西安等提供的岗位数量较少,电商发展受限;

另外,一些西南地区如成都、重庆等新一线城市政策环境良好,电商岗位需求量增加,对人才的吸引力强,电商发展的潜力很大。

(3)任职要求

任职要求图
观察分析后,发现电商企业青睐运营管理类人才,要求有一定的实操经验,能够与国内知名的电商平台结合,熟悉电商平台的运行规则和活动推广,了解店铺的上新维护,以客户为导向,提供高质量的服务体验。

在求职者素质方面,电商企业比较看重求职者的能力,学历要求不高,具有责任心和团队合作精神,具有良好的沟通能力等。

3.可视化图表

(1)平均薪资和岗位数量分布

Excel数据分析的目的是得出目前电商行业的平均薪资,对北上广深杭——大多数有意从事电商行业的毕业生可能会选择的城市做具体的分析。

北京
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
广州
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
上海
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
深圳
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
杭州

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

(2)北上广深杭与全国平均薪资水平对比

在这里插入图片描述
在一万条样本数据中,广州市计算得出的平均薪资是0.814万/月,低于全国平均薪资0.86万/月,也是五个城市中唯一一个薪资水平低于全国平均水平的城市;

而北京市平均薪资高达1.056万/月,领跑全国,上海市紧随其后,杭州深圳平均薪资也快接近1万,发展潜力很大。

4.爬虫代码

主要采用requests和BeautifulSoup库对 前程无忧招聘网进行爬取,搜索框键入电商,得到跳转页面,前1万条电商职位数据即为本文采集的样本数据。

爬取的部分代码信息块(主要是工作岗位、公司名、地点、发布时间、薪资、详情页链接)

def getjoblist(lf,joburl,lst):  #定义工作的(每一页的,后面会随着for循环不断到第二页)列表,里面存放职位名等信息和每个详情页的url链接,lst表示每一大页的链接
    la=[]  #定义空列表存放职位名
    lb=[]  #存放公司名
    lc=[]  #存放地点
    ld=[]  #存放薪资
    le=[]  #存放发布时间
        
    for joburl in lst:
        html=gethtml(joburl)
        soup=BeautifulSoup(html,'html.parser')        
        #lf=[]  #存放每个页面中对应的工作列表详情页的链接   
        #应该还要有下一页
        la.append('职位名')
        lf.append('详情页链接')
        for i in soup.find_all('p',class_='t1'):
            la.append(i.text.split(' ')[20])
            lf.append(i.a['href'])
                   
        for i in soup.find_all('span',class_='t2'):
            lb.append(i.string)
              
        for i in soup.find_all('span',class_='t3'):
            lc.append(i.string)
                
        for i in soup.find_all('span',class_='t4'):
            ld.append(i.string)
                
        for i in soup.find_all('span',class_='t5'):
            le.append(i.string)

有需要完整代码块的同学可以私信我哦

数据可视化正在学习中

欢迎各位兄弟姐妹们前来指导

版权声明:本文为golden_knife原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接: https://blog.csdn.net/golden_knife/article/details/107053763

智能推荐

使用Python爬取51job招聘网的数据

使用Python爬取51job招聘网的数据 进行网站分析 获取职位信息 存储信息 最终代码 进行网站分析 进入https://www.51job.com/这个网站 我在这就以python为例搜索职位跳转到这个页面 按F12进行查看每个职位的信息在哪个包中 我们点进这个包中搜索 发现这组数据在Script标签中,类似于json数据,同时发现其链接的URL的键值为job_href我们可以写一个正则表达...

python爬取51job关于python的招聘信息

前言 本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。 作者:Python学习与数据挖掘 PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取http://t.cn/A6Zvjdun 为方便大家清晰了解当前就业市场,小编对招聘网址51job进行了数据爬取,共计获取5万份招聘数据,代码、数据仅用于技术交流使用,需要...

Spring-IOC控制反转

一.概念 控制反转(Inversion of Control,缩写为IoC),是面向对象编程中的一种设计原则,可以用来减低计算机代码之间的耦合度。其中最常见的方式叫做依赖注入(Dependency Injection,简称DI),还有一种方式叫“依赖查找”(Dependency Lookup)。通过控制反转,对象在被创建的时候,由一个调控系统内所有对象的外界实体将其所依赖的...

txt文件上传后直接解析

** 废话不多说,直接上代码 用postman请求数据测试; 完美拿到了数据。...

搜索二维矩阵

问题描述: 编写一个高效的算法来判断 m x n 矩阵中,是否存在一个目标值。该矩阵具有如下特性: 每行中的整数从左到右按升序排列。 每行的第一个整数大于前一行的最后一个整数。 来源:力扣(LeetCode) 链接:https://leetcode-cn.com/problems/search-a-2d-matrix 著作权归领扣网络所有。商业转载请联系官方授权,非商业转载请注...

猜你喜欢

vue的生命周期

一.概述 vue对象初始化过程中,会执行到beforeCreate,created,beforeMount,mounted 这几个钩子的内容 **beforeCreate **:数据还没有监听,没有绑定到vue对象实例,同时也没有挂载对象 created** **:数据已经绑定到了对象实例,但是还没有挂载对象 beforeMount*** 模板已经编译好了,根据数据和模板已经生成了对应的元素对象,...

学习淘淘商城第四十七课(搜索功能Service实现)

        首先我们在taotao-search-interface工程新建一个接口类SearchService,并在接口类中添加一个接口,如下图所示。         接着,我们到taotao-search-service工程添加一个实现类SearchServiceImpl,并实现SearchService接口,...

热压烧结制备AlN/球形碳复相微波衰减材料及其性能

Microwave attenuating material is a kind of absorbing material used to absorb electromagnetic waves in a specific frequency band. It is mainly used in vacuum electronic devices such as radar, early wa...

阈值分割

阈值分割 设置一定的条件,将像素值分为两类或多类,并修改图像的像素值,主要针对灰度图像 注:阈值分割不是二值化,因为阈值分割的结果不是两个值 固定阈值分割(经验阈值) 阈值的方式有五种: 自适应阈值分割 可以看出固定阈值分割在整张图像中应用一个阈值,不能够适用于明暗不均的图像分割。自适应阈值每次取出图像的一小部分计算阈值,使得在一张图像中不同部分使用不同的阈值,可以更好分割图像。 小区域阈值计算方...

这一篇你一定别看,赶紧去下载微信读书吧!

大家好,我是天作。 这个世界上有两件事,几乎所有人都认为是好事,但实际真正去做这两件事的人少之又少,或者说能坚持下来的人不多。 这两件事就是读书和运动。 回想一下,你有多久没有认真的读完过一本书了?你有多久没运动了? 记得白岩松说过:“人生是一个棋盘,当你读的书少,棋盘上的棋子很少,不成势,随时可能被人吃掉。读的足够多,人生就成势了。 ” 我理解的这句话,大概就是...

天下网标王贵港百度标王梧州seo哪家好娄底网站推广工具价格贵阳网站设计报价西宁百度seo哪家好长治网站制作价格大鹏网站seo优化多少钱百色网站优化按天收费随州网站设计模板价格达州网站推广系统报价亳州seo排名多少钱宁波网站优化按天计费推荐十堰百度竞价多少钱乌海网站设计模板报价阳江网页制作多少钱宝鸡网站建设多少钱白银企业网站设计哪家好舟山seo排名哪家好清徐百姓网标王哪家好徐州网站定制安阳高端网站设计推荐淮北SEO按天扣费价格霍邱SEO按天收费哪家好安阳营销网站推荐南通网站开发多少钱焦作网站设计多少钱吉安百度竞价包年推广公司四平外贸网站建设公司济宁seo网站推广多少钱巢湖网站制作香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声卫健委通报少年有偿捐血浆16次猝死汪小菲曝离婚始末何赛飞追着代拍打雅江山火三名扑火人员牺牲系谣言男子被猫抓伤后确诊“猫抓病”周杰伦一审败诉网易中国拥有亿元资产的家庭达13.3万户315晚会后胖东来又人满为患了高校汽车撞人致3死16伤 司机系学生张家界的山上“长”满了韩国人?张立群任西安交通大学校长手机成瘾是影响睡眠质量重要因素网友洛杉矶偶遇贾玲“重生之我在北大当嫡校长”单亲妈妈陷入热恋 14岁儿子报警倪萍分享减重40斤方法杨倩无缘巴黎奥运考生莫言也上北大硕士复试名单了许家印被限制高消费奥巴马现身唐宁街 黑色着装引猜测专访95后高颜值猪保姆男孩8年未见母亲被告知被遗忘七年后宇文玥被薅头发捞上岸郑州一火锅店爆改成麻辣烫店西双版纳热带植物园回应蜉蝣大爆发沉迷短剧的人就像掉进了杀猪盘当地回应沈阳致3死车祸车主疑毒驾开除党籍5年后 原水城县长再被查凯特王妃现身!外出购物视频曝光初中生遭15人围殴自卫刺伤3人判无罪事业单位女子向同事水杯投不明物质男子被流浪猫绊倒 投喂者赔24万外国人感慨凌晨的中国很安全路边卖淀粉肠阿姨主动出示声明书胖东来员工每周单休无小长假王树国卸任西安交大校长 师生送别小米汽车超级工厂正式揭幕黑马情侣提车了妈妈回应孩子在校撞护栏坠楼校方回应护栏损坏小学生课间坠楼房客欠租失踪 房东直发愁专家建议不必谈骨泥色变老人退休金被冒领16年 金额超20万西藏招商引资投资者子女可当地高考特朗普无法缴纳4.54亿美元罚金浙江一高校内汽车冲撞行人 多人受伤

天下网标王 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化