爬取图集谷妹子写真图

Menguy · 发表于 2020-8-8 15:39

提示: 作者被禁止或删除内容自动屏蔽

baolinguo · 发表于 2020-8-17 22:45

本帖最后由 baolinguo 于 2020-8-17 22:48 编辑

用楼主的代码修改一下，做一个自动采集https://www.tujigu.com/a/*/并自动下载的。

[Python] 纯文本查看 复制代码

import requests, os
from lxml import etree
import urllib
from urllib.request import urlopen
import re

def geturl(url):
    global list
    headers = {
        'User-Agent': 'Mozilla/5.0 (Linux; Android 8.0; Pixel 2 Build/OPD3.170816.012) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.105 Mobile Safari/537.36 Edg/84.0.522.52'
    }
    req = urllib.request.Request(url, headers=headers)
    print('1、正在打开网址...' + url)
    website = urlopen(req,timeout=120)
    html = website.read().decode('utf8')
    website.close()
    print('2、正在查找符合条件的图片网址...')
    links = re.findall('<p class="biaoti"><a  target="_blank">',html)
    list = []
    print('3、开始准备图片网址列表内容。。。')
    for link in links:
        aurl = 'https://www.tujigu.com/a/' + link +'/'
        list.append(aurl)
    print('列表内容准备完毕，下面开始下载图片。。。')
    return list

def downimg(imgurl):
    newcount = len(list)
    h = 1
    while h < newcount:
        url = list[h]
        print(url)
        #exit()
        headers = {
            'User-Agent': 'Mozilla/5.0 (Linux; Android 8.0; Pixel 2 Build/OPD3.170816.012) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.105 Mobile Safari/537.36 Edg/84.0.522.52'
        }
        list1 = []
        res = requests.get(url, headers=headers).text
        res = etree.HTML(res)
        title = res.xpath('/html/body/div[2]/div[1]/h1/text()')[0].encode('ISO-8859-1').decode('UTF-8')
        page = res.xpath('//*[@id="pages"]/a/text()')
        data = res.xpath('//div[@class="content"]/img/@src')
        print(title)
        for j in range(len(data)):
            print(data[j])
            list1.append(data[j])

        i = 2
        while i < int(page[-2]) + 1:
            urls = url + '%s.html' % i
            res = requests.get(url=urls, headers=headers).text
            res = etree.HTML(res)
            data = res.xpath('//div[@class="content"]/img/@src')
            for j in range(len(data)):
                print(data[j])
                list1.append(data[j])
            i += 1

        path = './%s/' % title
        if not os.path.exists(path):  # 判断如果文件不存在,则创建
            os.makedirs(path)
            print("目录创建成功")
        else:
            print("目录已经存在")
        print('开始下载！！！')
        for i in range(len(list1)):
            jpg_url = list1[i]
            res = requests.get(jpg_url).content
            with open('%s/%s.jpg' % (title, i), 'wb') as fp:
                fp.write(res)
                print('第' + str(i) + '张图片下载完成！')
        print('第' + str(h) + '个图片网址下载完成！！！')
        h += 1
if __name__ == '__main__':
    print('准备开始工作了。。。')
    page = 1
    while page <50:
        url = 'https://www.tujigu.com/zhongguo/' + str(page) +'.html'
        geturl(url)
        downimg(list)

38342175 · 发表于 2020-8-8 16:06

老狗丶发表于 2020-8-8 15:44
沙发，这上面的图有点大尺度

布料这么多你说尺度大？？？

按住Shift屏息 · 发表于 2020-8-11 09:56

38342175 发表于 2020-8-8 16:06
布料这么多你说尺度大？？？

搜索，请

老狗丶 · 发表于 2020-8-8 15:44

沙发，这上面的图有点大尺度

wybwave · 发表于 2020-8-8 15:46

这是什么软件？不懂哦

D帝ing · 发表于 2020-8-8 15:47

才发现还有这种操作

Menguy · 发表于 2020-8-8 15:48

提示: 作者被禁止或删除内容自动屏蔽

eightspace · 发表于 2020-8-8 15:49

感谢老哥，等会尝试下

小图 · 发表于 2020-8-8 15:50

这家伙，上面的图都是越拍衣服越少

讲声多谢乌蝇哥 · 发表于 2020-8-8 16:11

先收藏了，以备不时之需

小图 · 发表于 2020-8-8 16:12

能爬这网站的VIP图片不

帐号		自动登录	找回密码
密码			注册[Register]

Menguy Menguy 当前离线好友阅读权限 0 听众最后登录 1970-1-1 头像被屏蔽	Menguy 发表于 2020-8-8 15:39 提示: 作者被禁止或删除内容自动屏蔽
	发帖前要善用【论坛搜索】功能，那里可能会有你要找的答案或者已经有人发布过相同内容了，请勿重复发帖。
	回复举报

[Python 转载] 爬取图集谷妹子写真图

个人中心

Menguy Menguy 当前离线好友阅读权限 0 听众最后登录 1970-1-1 头像被屏蔽	楼主\| Menguy 发表于 2020-8-8 15:48 提示: 作者被禁止或删除内容自动屏蔽

	回复支持举报