Python

Python批量爬取拉钩招聘信息

字号+ 作者:wd0g 来源:转载 2016-12-17 09:03 我要评论( )

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 import requests , json , re # 获取招聘的页数 def getPage ( city , keyword ) : url =......

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
import requests,json,re
 
# 获取招聘的页数
def getPage(city, keyword):
    url         = "http://www.lagou.com/jobs/list_%s?city=%s" %(keyword, city)
    pageData    = requests.get(url).text
    pageNum     = int(re.findall(r'<span class="span totalNum">(.*)</span>',pageData)[0])
    return pageNum
 
# 获取一页的招聘信息
def getOne(city, keyword, pageNum):
    url     = "http://www.lagou.com/jobs/positionAjax.json?city=%s&amp;needAddtionalResult=false&amp;pn=%d&amp;kd=%s" %(city, pageNum, keyword)
    data    = json.loads(requests.get(url).text)
    return data['content']['positionResult']['result']
 
# 获取多页的招聘信息
def getList(city, keyword, pageNum):
    pageNum     = {0:pageNum,1:getPage(city, keyword)}
    pageNum     = pageNum[0] if pageNum[1] &gt; pageNum[0] else pageNum[1]
    infoList    = []
    for pn in range(1,pageNum+1):
        infoList.extend(getOne(city, keyword, pn))
        print('[%d] OK' %pn)
    print('总爬取页数:%d 总爬取职位数:%d' %(pageNum, len(infoList)))
 
getList('成都','php',500)

本文来自: 蜗蜗侠's Blog-关注网络安全 http://blog.icxun.cn/Python/439.html

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

相关文章
网友点评
暂时未开启评论功能~