一区二区三区在线-一区二区三区亚洲视频-一区二区三区亚洲-一区二区三区午夜-一区二区三区四区在线视频-一区二区三区四区在线免费观看

腳本之家,腳本語言編程技術及教程分享平臺!
分類導航

Python|VBS|Ruby|Lua|perl|VBA|Golang|PowerShell|Erlang|autoit|Dos|bat|

服務器之家 - 腳本之家 - Python - Scrapy使用的基本流程與實例講解

Scrapy使用的基本流程與實例講解

2021-04-10 00:19回憶不說話 Python

今天小編就為大家分享一篇關于Scrapy使用的基本流程與實例講解,小編覺得內容挺不錯的,現在分享給大家,具有很好的參考價值,需要的朋友一起跟隨小編來看看吧

前面已經介紹過如何創建scrapy的項目,和對項目中的文件功能的基本介紹。

這次,就來談談使用的基本流程:

(1)首先第一點,打開終端,找到自己想要把scrapy工程創建的路徑。這里,我是建立在桌面上的。打開終端,輸入:
cd Desktop 就進入了桌面文件存儲位置。

Scrapy使用的基本流程與實例講解

(2)創建scrapy工程。終端輸入:scrapy startproject image

Scrapy使用的基本流程與實例講解

終端輸入:cd image

繼續輸入:scrapy genspider imageSpider pic.netbian.com

Scrapy使用的基本流程與實例講解

(3)在pycharm中打開剛才桌面的文件,進入settings.py設置爬蟲規則。可以將規則直接注釋掉,或者改為False

Scrapy使用的基本流程與實例講解

(4) 回到爬蟲文件。

Scrapy使用的基本流程與實例講解

更改start_url,將爬蟲默認的第一個網址更改為需要爬取的網站網址即可。

(5)下面就可以爬取數據了,這里選擇了下載圖片。

爬取完數據之后,要在存儲數據的items.py文件中傳輸給管道

接下來在爬蟲文件中引入管道模型。

from ..items import ImageItem

在爬蟲文件中的parse函數中使用在items.py文件中創建的數據模型。

item = ImageItem()

注意點:

有時候在終端輸出的時候,如果返回內容是scrapy.selector ,如果對象類型是scrapy.selector,那么這個對象可以被繼續迭代,也可以用xpath繼續尋找里面的內容。

如果終端遇到這個問題:

# ValueError:Missing scheme in request url:h

那么就需要使用extract()將xpath對象轉化成列表對象。而列表對象,可以繼續被迭代,但是不可以使用xpath來尋找里面的對象。

在下載之前還需要在settings.py文件中,對圖片下載的路徑和存儲位置進行設置。

Scrapy使用的基本流程與實例講解

下面附代碼如下。僅有爬蟲文件的代碼:

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
# -*- coding: utf-8 -*-
import scrapy
from ..items import ImageItem
class ImagespiderSpider(scrapy.Spider):
  name = 'imageSpider'
  allowed_domains = ['pic.netbian.com']
  start_urls = ['http://pic.netbian.com/4kmeinv/']
 
  def parse(self, response):
    img_list = response.xpath('//ul[@class="clearfix"]/li/a/img/@src')
    # 找到了很多src屬性值,現在進行遍歷,分別使用每一個
    for img in img_list:
      # 使用在items.py中創建的數據模型item
      item = ImageItem()
      print('--------------------')
      img = img.extract()
      # 拼接圖片的url,得到完整的下載地址
      src = 'http://pic.netbian.com' +img
      # 將得到的數據放入到模型中
      # 因為是下載地址,所以要用列表包起來,否則會報錯。
      item['src'] = [src]
      yield item
    next_url = response.xpath('//div[@class="page"]/a[text()="下一頁"]/@href').extract()
    print('*****************************************************************')
    if len(next_url)!=0:
      url = 'http://pic.netbian.com'+next_url[0]
      # 將url傳給scrapy.Request 得到的結果繼續用self.parse進行處理
      yield scrapy.Request(url=url,callback=self.parse)<br>

總結

以上就是這篇文章的全部內容了,希望本文的內容對大家的學習或者工作具有一定的參考學習價值,謝謝大家對服務器之家的支持。如果你想了解更多相關內容請查看下面相關鏈接

原文鏈接:https://blog.csdn.net/qq_39138295/article/details/81365941

延伸 · 閱讀

精彩推薦
主站蜘蛛池模板: 久久国产乱子伦精品免费不卡 | 色呦阁 | 国产精品成人网红女主播 | 99福利视频导航 | 俺去俺来也www色官网免费的 | wankz视频 | 色呦呦tv | 亚洲国产精品一区二区久久 | 久久久无码精品亚洲A片软件 | 午夜福利在线观看6080 | 69老司机亚洲精品一区 | 国产精品日韩在线观看 | 1769国产精品免费视频 | 亚洲好视频 | 亚洲第成色999久久网站 | 女人叉开腿让男人捅 | 男人天堂2023 | 国产成人精品一区二区仙踪林 | 亚洲看片lutube在线入口 | 欧美日韩国产一区二区三区在线观看 | www.亚洲视频| 国产中文在线视频 | 边摸边吃奶边做爽gif动态图 | 日韩一区在线观看 | 我半夜摸妺妺的奶C了她软件 | 色婷在线 | 亚洲天堂激情 | 天天天做天天天天爱天天想 | 国产麻豆麻豆 | 性bbbbwwbbbb| 日本xxxx69hd| www四虎影视| 亚洲福利在线观看 | 四虎影视永久在线精品免费 | 韩国免费视频 | 4hu影院永久在线播放 | 亚洲欧美日韩另类在线 | 九九久久国产精品免费热6 九九精品视频一区二区三区 | 啊好大好粗 | 国产精品青青青高清在线观看 | s0e一923春菜花在线播放 |