吾爱破解 - LCG - LSG |安卓破解|病毒分析|www.52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 19081|回复: 66
收起左侧

[Python 转载] 爬取图集谷妹子写真图

  [复制链接]
头像被屏蔽
Menguy 发表于 2020-8-8 15:39
提示: 作者被禁止或删除 内容自动屏蔽

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

baolinguo 发表于 2020-8-17 22:45
本帖最后由 baolinguo 于 2020-8-17 22:48 编辑

用楼主的代码修改一下,做一个自动采集https://www.tujigu.com/a/*/并自动下载的。
[Python] 纯文本查看 复制代码
import requests, os
from lxml import etree
import urllib
from urllib.request import urlopen
import re

def geturl(url):
    global list
    headers = {
        'User-Agent': 'Mozilla/5.0 (Linux; Android 8.0; Pixel 2 Build/OPD3.170816.012) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.105 Mobile Safari/537.36 Edg/84.0.522.52'
    }
    req = urllib.request.Request(url, headers=headers)
    print('1、正在打开网址...' + url)
    website = urlopen(req,timeout=120)
    html = website.read().decode('utf8')
    website.close()
    print('2、正在查找符合条件的图片网址...')
    links = re.findall('<p class="biaoti"><a  target="_blank">',html)
    list = []
    print('3、开始准备图片网址列表内容。。。')
    for link in links:
        aurl = 'https://www.tujigu.com/a/' + link +'/'
        list.append(aurl)
    print('列表内容准备完毕,下面开始下载图片。。。')
    return list

def downimg(imgurl):
    newcount = len(list)
    h = 1
    while h < newcount:
        url = list[h]
        print(url)
        #exit()
        headers = {
            'User-Agent': 'Mozilla/5.0 (Linux; Android 8.0; Pixel 2 Build/OPD3.170816.012) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.105 Mobile Safari/537.36 Edg/84.0.522.52'
        }
        list1 = []
        res = requests.get(url, headers=headers).text
        res = etree.HTML(res)
        title = res.xpath('/html/body/div[2]/div[1]/h1/text()')[0].encode('ISO-8859-1').decode('UTF-8')
        page = res.xpath('//*[@id="pages"]/a/text()')
        data = res.xpath('//div[@class="content"]/img/@src')
        print(title)
        for j in range(len(data)):
            print(data[j])
            list1.append(data[j])

        i = 2
        while i < int(page[-2]) + 1:
            urls = url + '%s.html' % i
            res = requests.get(url=urls, headers=headers).text
            res = etree.HTML(res)
            data = res.xpath('//div[@class="content"]/img/@src')
            for j in range(len(data)):
                print(data[j])
                list1.append(data[j])
            i += 1

        path = './%s/' % title
        if not os.path.exists(path):  # 判断如果文件不存在,则创建
            os.makedirs(path)
            print("目录创建成功")
        else:
            print("目录已经存在")
        print('开始下载!!!')
        for i in range(len(list1)):
            jpg_url = list1[i]
            res = requests.get(jpg_url).content
            with open('%s/%s.jpg' % (title, i), 'wb') as fp:
                fp.write(res)
                print('第' + str(i) + '张图片下载完成!')
        print('第' + str(h) + '个图片网址下载完成!!!')
        h += 1
if __name__ == '__main__':
    print('准备开始工作了。。。')
    page = 1
    while page <50:
        url = 'https://www.tujigu.com/zhongguo/' + str(page) +'.html'
        geturl(url)
        downimg(list)
38342175 发表于 2020-8-8 16:06
按住Shift屏息 发表于 2020-8-11 09:56
老狗丶 发表于 2020-8-8 15:44
沙发 ,这上面的图有点大尺度
wybwave 发表于 2020-8-8 15:46
这是什么软件?不懂哦
D帝ing 发表于 2020-8-8 15:47
才发现还有这种操作
头像被屏蔽
 楼主| Menguy 发表于 2020-8-8 15:48
提示: 作者被禁止或删除 内容自动屏蔽
eightspace 发表于 2020-8-8 15:49
感谢老哥,等会尝试下
小图 发表于 2020-8-8 15:50
这家伙,上面的图都是越拍衣服越少
讲声多谢乌蝇哥 发表于 2020-8-8 16:11
先收藏了,以备不时之需
小图 发表于 2020-8-8 16:12
能爬这网站的VIP图片不
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则 警告:本版块禁止灌水或回复与主题无关内容,违者重罚!

快速回复 收藏帖子 返回列表 搜索

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-6-7 07:33

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表