吾爱破解 - LCG - LSG |安卓破解|病毒分析|www.52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 32117|回复: 245
收起左侧

[Windows] 【C#爬虫】【更新至1.3】可以爬取任意网站图片的爬虫软件

    [复制链接]
kun775 发表于 2020-3-14 14:21
本帖最后由 kun775 于 2020-4-10 09:57 编辑

图片下载器已经集成到【小王子工具箱】,之后的更新会发布在工具箱里,请移步:https://www.52pojie.cn/thread-1141705-1-1.html
图片下载器已经集成到【小王子工具箱】,之后的更新会发布在工具箱里,请移步:https://www.52pojie.cn/thread-1141705-1-1.html
图片下载器已经集成到【小王子工具箱】,之后的更新会发布在工具箱里,请移步:https://www.52pojie.cn/thread-1141705-1-1.html

!!!【本帖不再更新】



蓝奏云目录:https://www.lanzouj.com/b0ddufgkd 密码:an85
以后更新,蓝奏云地址不变,会直接上传至该目录,请下载最新版本号文件即可。

重要:1.3版本一定要下载HttpHelper.dll,跟软件放一起,否则会闪退,之前忘记上传这个文件了。

重要:1.3版本一定要下载HttpHelper.dll,跟软件放一起,否则会闪退,之前忘记上传这个文件了。
重要:1.3版本一定要下载HttpHelper.dll,跟软件放一起,否则会闪退,之前忘记上传这个文件了。
几点重要说明:
1、本软件只能爬取图片,但是还没达到任意网站的图片都能爬,努力中。
2、对于不能爬的网站,只要你用浏览器能访问能下载的图片,基本都能爬取,不过有些网站需要登录获取cookie,有些网站的子页面需要加上域名前缀。有些网站是限制爬虫的,因为爬虫会给网站带来负担,甚至是拖垮网站,所以一些网站不能爬取也是正常的。
3、关于图片下载又删除,是因为受图片大小限制,默认是500kb,这个你们可以改的呀,爬虫设置区的框框都可以输入的。
4、爬虫设置区的参数,是我测试时的参数,你们要根据实际情况修改或删掉,比如跳转前缀,不是所有网站都需要设置的,留空就行,cookie也是,不用登录的网站不用设置。爬虫深度,如果发现爬取的页面很少,可以适当调整爬虫深度
5、关于图片画质,一般首页放的是预览图,子页面才是原图,或者,有些网站是要点击才能出现原图,所以软件加了个图片大小选项,加大图片大小限制,能间接达到下载高画质效果、


2020/03/16 15:38更新
软件更新至1.3,截图的时候忘记升级版本号了
1、经网友建议,使用苏飞的Httphelper框架,框架包括请求html内容,解析html中图片地址,子页面地址,下载图片,整体效率高一些。不过由于苏飞论坛需要充值199才能下载dll,所以我是用坛友提供的dll,不能确认是否留有后门。
如果哪位坛友有苏飞论坛的年费会员,希望能帮忙下载最新的源码或者dll。感谢。
2、增加设置页面,在爬虫设置-其他设置,设置包括代{过}{滤}理,图片格式,下载方式,输出子页面链接,输出图片链接等。
      cookie输入框搬至其他设置页面的cookie区;
      代{过}{滤}理:有些境外网站需要代{过}{滤}理才能访问,默认全部留空,有需要有能力才设置,否则可能会导致不能爬取或者爬取速度慢
      图片格式:默认下载jpg gif png,留空则所有图片格式都会下载,每种格式以空格分隔
      图片下载方式:HttpHelper-HttpHelper自带的下载方式,WebClient-C#自带的下载方式,如果感觉下载慢,下载出错多,可以切换来用
      输出子页面链接、输出图片链接:是为了调试用,尤其是爬取图片少,子页面少的情况,打开这个选项可以看是不是不能正确解析页面,正常使用请保持关闭,大量输出会导致软件卡顿


再次说明:出现爬取失败,爬取内容少,请仔细看教程和注意事项,该留空的留空,该添加的添加,最后说明,不是所有网站都对爬虫友好。


该软件到此基本告一段落了,如果没有其他建议或需求的话,应该会更新慢或停更,正事要紧,平时下班或周末会写写代码。
至于开源,我整理一下代码,会发布到github,代码写的很烂。
1.jpg
2.jpg



判断是否要加跳转前缀:
打开网站,按F12,用箭头选中其中一项图片标题或者主题,可以看到href后面的地址,如果是http或者www开头,一般就不用加前缀,如果是类似/xxx/xxx就需要加域名前缀。如下图
1.png
我们可以看到,href后面是/tupian/25610.html,说明不能直接跳转,把鼠标指向这个地址,会出现完整跳转链接http://pic.netbian.com/tupian/25610.html,所以,这个网站的子页面需要加的前缀是http://pic.netbian.com






2020/03/15 11:33更新

蓝奏云目录:https://www.lanzouj.com/b0ddufgkd 密码:an85
以后更新,蓝奏云地址不变,会直接上传至该目录,请下载最新版本号文件即可。


更新内容:
1、界面调整,整体变化不大,就是一些输入框大小做了调整
2、完善爬取结束流程,现在能正确判断结束原因(手动结束,下载完成,达到指定深度完成)
3、增加图片地址正则表达式,有些网站图片地址格式是 img src="xxxx,jpg" 有些是 data-src='xxxx.jpg' 后续考虑由用户指定图片地址正则表达式,以达到爬取任意网站效果
4、修复一个指定爬取深度无效的bug

一些网站无法爬取说明:
1、网站做了爬虫限制,比如限制1秒内访问次数
2、网站部署在境外,远程访问响应慢,导致软件超时
3、网站需要登录,但是不支持cookie登录,注意cookie的有效期,如果是cookie过期,请用浏览器登录获取新的cookie
4、网站的图片需要购买、回复可见等
5、其他子页面跳转规则和其他图片地址规则

大家遇到不能爬取的网站,最好用评分的方式填写,这样我就能在首页看到,为了能做到爬取任意网站,需要大量样本网站,各网站风格不同,用单一正则表达式很难做到爬取任意网站。
1.png

测试网站:http://pic.netbian.com/new/,我昨晚挂了一晚,下了10000张图片,一共7G,太丧心病狂了,大家悠着点,别给网站造成太大的负担,软件默认的cookie是我的登录信息,目前已经过期,请大家用自己的cookie爬取




2020/03/14 16:50更新

蓝奏云:https://www.lanzouj.com/ia903ob更新内容:
软件版本更新至v1.1
1、增加cookie模拟登录,可以爬取一些需要登录才能浏览的网站,测试发现网易lofter可以爬取,微博暂时不行,测试网址:
https://www.lofter.com/view?act=qbview_20130930_01
     使用方法,登录,然后打开需要爬取的页面,按F12,
     1.1选择Network,
     1.2点击清除,然后刷新页面,
     1.3选取页面地址
     1.4选择Headers
     1.5复制Cookie后面的值,复制到最后,有些cookie很长,全部复制,粘贴到软件的cookie框里
34.png
3.png



原本是发布在【原创发布区】板块的,但是审核太慢了,一天了新帖都不超过3个,所以改发布到精品软件区。

因为昨天的帖子还没通过审核,不能修改,但是我今天又升级了一下功能,所以把新版本发布到这里。


2020/03/14更新内容:
1、可以自定义保存图片目录,但还是会保存在软件目录下的images目录下,可以选择当前日期,或者网站域名,或者自己输入文件夹名称,请勿输入特殊字符,支持中文
2、去掉非站内url的跳转,提升爬虫效率
3、软件底部新增正在爬取的链接和正在下载的图片,并显示实时下载速度,每2s更新一次速度
4、更换了新的背景图,减少软件大小


老规矩,蓝奏云:https://www.lanzouj.com/ia8sx6f

软件是自己编码,visual studio2019 + .net4.5,本人觉得没必要杀毒,如果各位不放心的,请留言,我会进行杀毒测试。

版主大人,如果此贴通过审核,请把我在【原创发布区】的相同帖子删掉吧 https://www.52pojie.cn/thread-1130643-1-1.html

2.png


以下是原贴内容:
昨天,我发布了一个用C#写的网站图片爬虫软件,由于涉及色情内容,被删除了,我痛定思痛,重新写了一个可以爬取任意网站图片的软件

由于是可以爬取任意输入的网站图片,所以没有做过滤,只要符合图片格式的都会被爬取,可以通过设置图片大小去掉不符合的图片,总之,效率可能一般。

界面很粗糙,为了赶在周末前给大家测试,所有很多细节都没处理,各位在用的时候有什么建议可以提,我会继续完善的。

软件本身很小,但是加了个背景图,大了很多。

老规矩,蓝奏云:https://www.lanzouj.com/ia7teej(旧版本,请下载上面的新版本)

使用方式:
1、在地址输入框输入爬取的地址
2、选择爬取深度,深度1层代表只爬取1输入的网站内容,2层表示把1的网站内容中出现的url继续访问,3层在2 的基础上继续跳转,以此类推,一般2层就可以了
3、输入限制图片的大小,小于该数值的图片会被删掉
4、输入本次爬取的图片数量,只有符合大小的图片才会增加数量
5、去吧!皮卡丘

爬取过程中,可以随时停止,但是不能继续,只能重来。

最后,按照国际惯例,求免费的评分,昨天被删帖,扣了一些分。

出现爬取失败,可能是由于网站禁止爬虫,亦或是跳转链接是要加前缀,这个问题将在下一个版本改善。

免责声明:请勿用于非法用途,爬取网站是否违法就看网站是否禁止爬虫。





cookie.png

点评

我怎么看到了小草APP的LOGO?1024大佬!  发表于 2020-4-9 14:14
怎么好像看到了***社区的logo???  发表于 2020-3-14 17:19

免费评分

参与人数 75吾爱币 +70 热心值 +65 收起 理由
nizhong + 1 + 1 我很赞同!
geniusrot + 1 + 1 希望大佬能继续更新,做可以怕微博的爬虫
homieete + 1 + 1 谢谢@Thanks!
zhushuaishuai + 1 + 1 感谢发布原创作品,吾爱破解论坛因你更精彩!
WAPJ_0214 + 1 + 1 热心回复!
v.n.lee + 1 看到这个ico,我就知道大佬的初衷了
香菇滑鸡 + 1 热心回复!
bhgjkx + 1 谢谢@Thanks!
flyantbusy + 1 我很赞同!
realiza + 1 + 1 谢谢@Thanks!
ff0138 + 1 + 1 我很赞同!
sunshinewxg + 1 + 1 我很赞同!
mtyzxhc + 1 + 1 鼓励转贴优秀软件安全工具和文档!
冷酷到底 + 1 + 1 谢谢@Thanks!
kelisi123 + 1 + 1 我很赞同!
jawy + 1 + 1 用心讨论,共获提升!
羽呀毛 + 1 + 1 谢谢@Thanks!
toni_c + 1 + 1 为图标评分
ssll1 + 1 谢谢@Thanks!
lrain + 1 + 1 谢谢@Thanks!
zeryt09 + 1 + 1 很牛
dkymore + 1 希望开源,一起学习
Poplar + 1 + 1 谢谢楼主
梦忆殇 + 1 + 1 谢谢@Thanks!
52zhi + 1 谢谢@Thanks!
fight775 + 1 + 1 谢谢@Thanks!
carrot2017 + 1 + 1 我很赞同!
小家伙对你的 + 1 + 1 谢谢@Thanks!
woyunsile + 1 + 1 谢谢@Thanks!
Yesloveme + 1 我很赞同!
ljhwcdrrd + 1 + 1 谢谢@Thanks!
pxpxpx36 + 1 + 1 一不小心看到美图lu这个网站了
立志成为大佬 + 1 + 1 我很赞同!
余我不待 + 1 + 1 谢谢@Thanks!
planemo + 1 + 1 不为别的冲着你蓝奏分享名字最短那个给你点个赞
sanyu2020 + 1 + 1 我是冲着软件的疑似开车图标给分的。
神秘高手Mars偉 + 3 + 1 感谢楼主分享!
ienglp + 1 + 1 我很赞同!
闻色 + 1 我很赞同!
henry425 + 1 鼓励转贴优秀软件安全工具和文档!
陈少上52 + 1 + 1 热心回复!
魅夜 + 1 + 1 热心回复!
thesunny + 1 + 1 用心讨论,共获提升!
黑了个橙 + 1 + 1 感谢发布原创作品,吾爱破解论坛因你更精彩!
xu151912 + 1 + 1 感谢发布原创作品,吾爱破解论坛因你更精彩!
wuyuan886 + 1 谢谢@Thanks!
wolf浪子 + 1 我很赞同!
ysdn + 1 + 1 我很赞同!
无极之羽 + 1 + 1 我很赞同!
wimotek + 1 + 1 谢谢@Thanks!
goblin + 1 + 1 谢谢@Thanks!
zh8888 + 1 谢谢@Thanks!
mln537 + 1 + 1 谢谢@Thanks!
爽歪歪739 + 1 + 1 谢谢@Thanks!
z666z + 1 + 1 谢谢@Thanks!
anmingyu777 + 1 + 1 我很赞同!
墨染灬离殇 + 1 + 1 热心回复!
uiop88 + 1 + 1 谢谢@Thanks!
wolf47211 + 1 + 1 用心讨论,共获提升!
ghz17679085309 + 1 热心回复!
lmt19841123 + 1 我很赞同!
zy6629056 + 1 + 1 热心回复!
lhr0802 + 1 + 1 谢谢@Thanks!
yanglinman + 1 谢谢@Thanks!
超音速DX + 1 + 1 谢谢@Thanks!
axbycz321 + 1 + 1 谢谢@Thanks!
ci4y0nWF + 1 + 1 用心讨论,共获提升!
荒草2378 + 1 + 1 谢谢@Thanks!
fyz2007 + 1 + 1 谢谢@Thanks!
三千十三 + 1 + 1 谢谢@Thanks!
xzl9552547 + 1 热心回复!
SSHZDR + 1 + 1 还不评分等什么啊
han5562877 + 1 + 1 谢谢@Thanks!
zxy20014 + 1 + 1 1024,达尔盖的旗帜,感谢分享~
我欲向天啸 + 1 + 1 热心回复!

查看全部评分

本帖被以下淘专辑推荐:

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

wanglaihuai 发表于 2020-3-14 15:29
老哥,源码方便分享出来吗,学习一下~~
KILLCALL 发表于 2020-3-14 14:30
 楼主| kun775 发表于 2020-4-9 15:01
香菇滑鸡 发表于 2020-4-9 14:05
还是运行不起来。这个程序正常是应该在XP上跑的吗?还是我电脑上缺少什么库、模块之类的东西?

用win10开发的,win10应该没问题,是基于net4.5
UPC 发表于 2020-3-14 15:07
没分帮顶改一下看看
lingye512 发表于 2020-3-14 14:32
感谢分享。。。。。。。。。。。
taozididi 发表于 2020-3-14 14:33
本帖最后由 taozididi 于 2020-3-14 14:38 编辑

感谢大佬分享 试试
foxy2017 发表于 2020-3-14 14:33
谢谢分享,谢谢
juzimi 发表于 2020-3-14 14:49
这个可以玩
ljs2007 发表于 2020-3-14 14:55
能爬取会员制网站的图片吗?能爬取文章么?
白衣国度 发表于 2020-3-14 15:01
秀啊老哥,我拿易语言也打算做一个的,但是还有部分网站不适配,用你的试试
白衣国度 发表于 2020-3-14 15:06
老哥爬不了微博鹅,他在访问那就就开始卡着不动了
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则 提醒:禁止复制他人回复等『恶意灌水』行为,违者重罚!

快速回复 收藏帖子 返回列表 搜索

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-4-20 18:30

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表