Scrapy实践----获取天气信息

小程序：扫一扫查出行
【扫一扫了解最新限行尾号】
复制小程序

scrapy是一个非常好用的爬虫框架，它是基于Twisted开发的，Twisted又是一个异步网络框架，既然它是异步的，那么执行起来肯定会很快，所以scrapy的执行速度也不会慢的！

如果你还没没有学过scrapy的话，那么我建议你先去学习一下，再来看这个小案例，毕竟这是基于scrapy来实现的！网上有很多有关scrapy的学习资料，你可以自行百度来学习！

接下来进入我们的正题：

如何利用scrapy来获取某个城市的天气信息呢？

我们爬取的网站是：天气网

城市我们可以自定义

1.创建项目名称

scrapy startproject weatherSpider

2.编写items.py文件

在这个文件中我们主要定义我们想要抓取的数据:

a.城市名(city)

b.日期(date)

c.天气状况(weather)

d.湿度(humidity)

e.空气质量(air_quality)

 import scrapy

 class WeatherspiderItem(scrapy.Item):
     """
     设置要爬取的信息
     """
     city = scrapy.Field()
     date = scrapy.Field()
     weather = scrapy.Field()
     humidity = scrapy.Field()
     air_quality = scrapy.Field()

3.打开网页

利用Chrome浏览器来提取上面5个信息

利用同样的方式我们可以找到其余4个信息个XPath表达式

4.编写爬虫文件

在第3步中我们已经找到我们想要的信息的XPath表达式了,我们就可以开始写代码了

 import scrapy
 from scrapy import loader

 from ..items import WeatherspiderItem

 class WeatherSpider(scrapy.Spider):
     name = 'weather'
     allowed_domains = ['tianqi.com']
     # 这是事先定义好的城市，我们还可以在里面添加其他城市名称
     cities = ['shanghai', 'hangzhou', 'beijing']
     base_url = '/uploads/c8/c878a2136274f5e7052bf8af125a7d22.jpg'
     start_urls = []
     for city in cities:
         start_urls.append(base_url + '{}'.format(city))

     def parse(self, response):
         """
         提取上海今天的天气信息
         :param response:
         :return:
         """
         # 创建一个ItemLoader，方便处理数据
         iloader = loader.ItemLoader(WeatherspiderItem(),response=response)
         iloader.add_xpath("city", '//dl[@class="weather_info"]//h2/text()')
         iloader.add_xpath('date', '//dl[@class="weather_info"]/dd[@class="week"]/text()')
         iloader.add_xpath('weather', '//dl[@class="weather_info"]/dd[@class="weather"]'
                                      '/p[@class="now"]/b/text()')
         iloader.add_xpath('weather', '//dl[@class="weather_info"]/dd[@class="weather"]'
                                      '/span/b/text()')
         iloader.add_xpath('weather', '//dl[@class="weather_info"]/dd[@class="weather"]'
                                      '/span/text()')
         iloader.add_xpath('humidity', '//dl[@class="weather_info"]/dd[@class="shidu"]'
                                       '/b/text()')
         iloader.add_xpath('air_quality', '//dl[@class="weather_info"]/dd[@class="kongqi"]'
                                          '/h5/text()')
         iloader.add_xpath('air_quality', '//dl[@class="weather_info"]/dd[@class="kongqi"]'
                                          '/h6/text()')
         return iloader.load_item()

如果觉得困惑为何要使用ItemLoader的话，建议去读一下关于ItemLoader的官方文档：传送门

5.结果保存为JSON格式

要想把我们提取的结果保存到某种文件中，我们需要编写pipelines

 import os
 import json

 class StoreAsJson(object):
     def process_item(self, item, spider):
         # 获取工作目录
         pwd = os.getcwd()
         # 在当前目录下创建文件
         filename = pwd + '/data/weather.json'

         with open(filename, 'a') as fp:
             line = json.dumps(dict(item), ensure_ascii=False) + '\n'
             fp.write(line)

6.添加设置信息

我们写的pipelines文件要起作用，需要在settings.py中设置

 ITEM_PIPELINES = {
     'WeatherSpider.pipelines.StoreAsJson': 300,
 }

7.启动爬虫

scrapy crawl wether

8.参考资料

从零开始写Python爬虫 --- 2.3 爬虫实践：天气预报&数据存储

如果大家喜欢的话，请点个赞！！O(∩_∩)O

正文

相关阅读

查看数据分区mysql，mysql 查看分区表信息

关于sqlserver2005link的信息

phpcms底部版权信息，版权信息html

Python爬虫提取租房信息，爬虫爬取房源信息

查mysql版本语句，mysql查询版本信息

关于rediscpu100%的信息

新闻信息架构设计案例，新闻架构分析的两种方法

js点击文本域文字消失，js点击文字展开详细信息

目录[+]