20170717_python_爬虫_网页数据解析_BeautifulSoup_数据保存_pymysql

小程序：扫一扫查出行
【扫一扫了解最新限行尾号】
复制小程序

上午废了老大劲成功登陆后,下午看了下BeautifulSoup和pymysql,晚上记录一下

自己电脑装的sublime,字体颜色竟然拷贝不下来 - -

写的过程中遇到了很多问题:

1.模拟登陆部分

模拟登陆看相关教程都是要用的cooklib,但是py3.x不支持这个库,换了http.cookiejar也遇到了一大堆坑,最后发现了request带的有cookie,可以拼装cookie,

然后用alert(document.cookie)获取cookie去拼cookie抓页面,但是每次抓到的都是跳转页面,一度绝望准备放弃,直到N小时候的探索候,发现了httpfox+firedebug!

简直是神器,发现之前alert时获取的cookie少了一个参数,加上去之后神奇的登录上去抓下来页面了,自学大概就是这样吧~碰运气。

2.网站结构分析

今天的目标网站是一个B2B2C网站,爬取的内容是后台的用户数据。

网站结构比较老,需要抓取的数据在table里,每行tr都有一条数据,这个可以直接通过获取所有的tr标签后进行遍历,但是这个网站的手机号字段需要点击获取按钮才可以看到,

用的是ajax+Dialogue模态框(还好前两天刚用php+bootstrap过做了个后台项目,机智如我),通过firedebug+httpfox抓包看到每次点击查看号码后,POST请求的都是同一个页面,

返回的数据竟然不仅仅是手机号!是用户信息的所有字段!网页结构瞬间难度降低.只需要获取总页数和用户Id就可以抓数据了!总页数通过指定的string获取即可,用户Id通过指定

的class获取tag.find('a', attrs={'class':'see'}),然后再去href属性,再取数字,用户的id就被取到了。

3.循环获取数据

上面已经获取了总页数和用户Id了,现在只要循环总页数次*每次的数据tr行数就可以获取全部数据.

在方法外定义一个for循环,循环了总页数次,由于有的用户没有点击查看用户联系方式(vip不可以被查看),导致有时获取用户Id时失败,所以在获取用户id时加了个判断,如果为空,

则跳出本次获取用户数据循环,成功获取数据后发现获取的数据时bytes类型,无法json解析,经过一番资料查询,确定bytes转str再转json,实际执行中发现个别人的数据无法转换,

原因不明,加了个判断先绕过去!至此,已经获取到了想要的数据了,可以通过json名['字段名']获取数据.

4.mysql存储

经过一系列的磨难,就差一步存储就可以完成了.

mysql的python只支持到了3.4版本,所以3.6版本用不了,中间尝试N次失败告终,又在网站搜集一番资料,发现用pymysql,写了个连接测试文件,测试后没问题,拷贝到这里,

万事俱备只欠东风,开始执行xxx.py,直接报错,数据库连接被关闭???然后发现数据库被关闭后再次写入没有开启,调整了下语句,继续测试,ok了,采集了40多页后报错,遇到了对方是

vip的问题,果断判断一下跳过,然后页数循环那里加上判断直接从40+页开始循环,执行到70+页后出现人名无法存数据库,不知道什么原因,直接跳过指定id继续执行,最后成功抓取107页数据.

然后通过phpmyadmin可以导出各种格式.

5.后记

路漫漫其修远兮吾将上下而求索

自学过程中会遇到各种坑,各种问题,一定要坚持下去,可以通过搜索引擎找到答案.

等有时间了还是要把代码封装一下,规范一点,希望以后可以复用.

虽然最后实现了功能,还是有很多不完善的地方,以后慢慢改进!

#-*-coding:utf-8-*- #编码声明

import requests

from bs4 import BeautifulSoup

import re,time

import pymysql.cursors

import json

def getCookie():

cookie = {}

raw_cookies = 'UM_d=1440;saf=6E4FBE;AJes=7; ASId=45'#引号里面是cookie，用抓包工具来获得

for line in raw_cookies.split(';'):

key,value = line.split("=", 1)

cookie[key] = value #一些格式化操作，用来装载cookies

return cookie

def getData(num):

url = 'http://www.xxx.com/xxx/allmessage_' + str(num) + '.html'

print('当前抓取网址' + url)

res = requests.get(url,cookies=getCookie())

content = res.content

saveData(content)

return content

def getPageNum():

url = 'http://www.xxx.com/xxx/allmessage.html'

res = requests.get(url,cookies=getCookie())

content = res.content

soup = BeautifulSoup(content,'html.parser')

pageStr = soup.find_all('a')

mystr = pageStr[-1]['href']

pageNum = re.sub("\D", "", mystr)

return pageNum

def saveData(content):

conn = pymysql.Connect(user='root', password='root', database='user',charset="utf8")

soup = BeautifulSoup(content,'html.parser')

tb = soup.find_all('tr',style='text-align:center;')

for tag in tb:

see = tag.find('a', attrs={'class':'see'})

if not see:

continue

seestr = see['onclick']

seenum = re.sub("\D", "", seestr)

#根据seenum获得指定用户信息

userinfo = seeInfo(int(seenum))

#这个userinfo是 bytes类型,先转换成str,再转换成json,真麻烦!

strdata = str(userinfo, encoding = "utf-8")

strdata = strdata.encode('UTF-8')

if seenum == 404831:

print(strdata)

jsondata = json.loads(strdata)

cursor = conn.cursor()

cursor.execute('insert into my_userinfo (see, sendtime, name, phone, content, weixin, qq) values (%s, %s, %s, %s, %s, %s, %s)', [int(seenum), jsondata['time'], jsondata['name'], jsondata['phone'], jsondata['content'], jsondata['weixin'], jsondata['QQ']])

cursor.rowcount

# 提交事务:

conn.commit()

cursor.close()

#print(str(seenum) + '写入成功!')

def seeInfo(id):

url = 'http://www.xxx.com/xxx/tel.html'

info = {'id':id}

res = requests.get(url,cookies=getCookie(),data=info)

content = res.content

#with open("./new/json_"+str(id)+".txt", 'wb') as f:

#f.write(content)