吾爱破解 - LCG - LSG |安卓破解|病毒分析|www.52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 13162|回复: 41
收起左侧

[Python 转载] python scrapy 爬取某表情网站表情图【源码+GIF表情包下载】

  [复制链接]
null119 发表于 2018-2-12 20:29
本帖最后由 null119 于 2018-2-12 20:49 编辑

先上图:
4.png

源代码【python才学几天,代码丑陋,还请各位多多包涵】:

[Python] 纯文本查看 复制代码
import scrapy
import os,sys
import requests
import re
class scrapyone(scrapy.Spider):
        name = "stackone"
        start_urls = ["http://qq.yh31.com/ql/bd/"]
        def parse(self,response):
                hrf=response.xpath('//*[@id="main_bblm"]/div[2]/dl/dd/li')
                for li in hrf:
                        item={}
                        href=li.xpath('a/@href').extract()
                        hreftext=li.xpath('a/text()').extract()
                        full_url = 'http://qq.yh31.com'+ ''.join(list(href))
                        hreftext=''.join(list(hreftext))
                        #文件夹名称
                        if hreftext=='>更多>':
                                continue
                        path = 'C:\GIF'
                        if not os.path.exists(path):
                                os.makedirs(path)
                        item['dirname']=hreftext
                        yield scrapy.Request(url=full_url,meta={'key':item},callback = self.parse1)

        def parse1(self,response):
                ite={}
                full_url=[]                
                url1 = response.xpath('//*[@id="pe100_page_infolist"]/a[2]/@href').extract()
                url2 = response.xpath('//*[@id="pe100_page_infolist"]/a[2]/@href').re('\d+')
                url1 = ''.join(url1)
                url1 = url1.split('_')
                url2 = ''.join(url2)
                ite['dirn']=response.meta['key']['dirname']
                for i in range(1,int(url2)+1):
                        full_url='http://qq.yh31.com'+url1[0]+'_'+str(i)+'.html'
                        #print(full_url)
                        yield scrapy.Request(url=full_url,meta={'key1':ite},callback = self.parse2)

        def parse2(self,response):
                p1=response.meta['key1']['dirn']
                resp = response.xpath('//*[@id="main_bblm"]/div[1]/li/dt/a') 
                path = 'C:\GIF\\'+''.join(p1)
                if not os.path.exists(path):
                        os.makedirs(path)
                for lst in resp:
                        alt = lst.xpath('img/@alt').extract()
                        src = lst.xpath('img/@src').extract()
                        src = 'http://qq.yh31.com'+ ''.join(list(src))
                        alt = ''.join(list(alt))
                        html=requests.get(src)
                        with open(path+'\\'+alt+'.gif', 'wb') as file:
                           file.write(html.content)



脚本执行方式:cmd-->切换到脚本所在目录-->scrapy runspider xxxx.py

执行后会自动根据GIF分类在c:\gif文件夹下建立相应文件夹存储gif图片


QQ截图20180212202435.png


QQ截图20180212202521.png

不想麻烦的就直接到百度网盘下载吧,我已经传上去了

QQ截图20180212202807.png

链接:https://pan.baidu.com/s/1c3YYTfq 密码:1t8h

免费评分

参与人数 7吾爱币 +7 热心值 +6 收起 理由
吾爱妹子涛 + 1 + 1 我很赞同!
laxlak + 1 热心回复!
jwczjzl + 1 + 1 Mark
lkkjm + 1 + 1 用心讨论,共获提升!
倔强的丫头 + 1 + 1 如果能采集直接发布在网站就好了
Zhang.J + 1 + 1 谢谢@Thanks!
Ifover + 1 + 1 鼓励转贴优秀软件安全工具和文档!

查看全部评分

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

 楼主| null119 发表于 2018-2-12 23:57
天天404 发表于 2018-2-12 21:38
请问楼主学了多长时间的py?能分享下在哪学的吗我也想学...先谢谢啦

三、四天吧,从百度网盘上下载的,不过没转存,所以也找不到了,目录如下
01_PYTHON基础、进阶、项目(Python零基础学员可先看)
02_Python 视频 分布式 爬虫Scrapy入门到精通 Redis MongoDB教程
03_七月算法_Python爬虫项目班
04_Python3爬虫入门到精通课程视频附软件与资料 34课
天天404 发表于 2018-2-13 18:56
null119 发表于 2018-2-12 23:57
三、四天吧,从百度网盘上下载的,不过没转存,所以也找不到了,目录如下
01_PYTHON基础、进阶、项目(P ...

非常感谢您的建议,祝dalao生活愉快
Ifover 发表于 2018-2-12 20:35
python好玩啊
我也刚学爬了12306,准备学Qt然后做个窗体
稀罕谁 发表于 2018-2-12 20:42
谢谢,学写一下
冷冷的风 发表于 2018-2-12 20:43
辛苦楼主了。
Zhang.J 发表于 2018-2-12 20:49
感谢分享
DE377DE477 发表于 2018-2-12 20:49
谢谢楼主分享
BBB老二 发表于 2018-2-12 21:03
感谢分享!
天天404 发表于 2018-2-12 21:38
请问楼主学了多长时间的py?能分享下在哪学的吗我也想学...先谢谢啦

点评

三、四天吧,从百度网盘上下载的,不过没转存,所以也找不到了,目录如下 01_PYTHON基础、进阶、项目(Python零基础学员可先看) 02_Python 视频 分布式 爬虫Scrapy入门到精通 Redis MongoDB教程 03_七月算法_Pyt  详情 回复 发表于 2018-2-12 23:57
倔强的丫头 发表于 2018-2-12 21:50
如果楼主能做到 采集并直接发布在网站 请联系我 谢谢
風雲 发表于 2018-2-12 23:03
支持楼主,试试
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则 警告:本版块禁止灌水或回复与主题无关内容,违者重罚!

快速回复 收藏帖子 返回列表 搜索

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-4-27 03:37

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表