爬虫之引导小白之菜鸟心法

txq0211 · 发表于 2022-4-2 23:04

本帖最后由 txq0211 于 2022-4-2 23:16 编辑

《菜鸟心法》
  欲练神功
  必先 * *
  若不 * *
  也能成功

关于爬虫入坑，似乎要会一门开发语言譬如Python。
只是作为业余爱好者，什么才叫会呢？
看着网上的一大堆教程，一堆要忽悠报班学习的，
好像要学好多基础，脑壳痛。
（最近有点忙，就拿前几天摸索的例子聊一聊）

一、天下文章一大抄
回想从小到大各种学习，好像我们学语文不需要记住整本词典，
从最开始学习一篇课文，然后通过那些课文来认识那些字。
我们写作文，貌似也是如此，从模仿开始。
于是便有了：
   （原文）                      （创作）
日照香炉生紫烟，       日照香炉生紫烟，
遥看瀑布挂前川。       李白来到烤鸭店。
飞流直下三千尺，       口水直流三千尺，
疑是银河落九天。       摸摸口袋没带钱。

好诗，好诗，对仗工整，韵也压上了，写诗好像也挺简单的。
好像模仿别人的例子也不难，于是，我们可以开始第一步模仿。
爬虫之如何引导（忽悠）小白学爬虫

二、大象关冰箱需要几步？

做爬虫呢，模仿别人的例子，自己的想法呢，就像如何把大象关冰箱。
先不管自己有没有那么大的冰箱，先借别人的冰箱用用，
根据自己的想法，第一步如何、第二步如何、第三步如何。

于是东抄抄西抄抄，根据自己的想法便是有了第一篇爬虫帖子：
（在52抛砖引玉，大家评价也很确切）

爬虫之微信发送每天60秒读懂世界

虽然方法笨了点，但是好像也是这么回事，方法不重要，重要的是目标达成。
三、纸上得来终觉浅，绝知此事要躬行
根据自己的想法，东拼西凑，写出的爬虫好像也过得去。
哈哈，后面的创建到PPT部分完全百度抄的。

爬虫之历代版图保存及创建到ppt

图片.png

有人回帖说，爬小姐姐的图片才是爬虫的动力来源。
好吧，爬小姐姐的图片比这个要稍微复杂点。
想练手的伙伴可以先拿这个爬虫前半部分尝尝鲜。
先在桌面新建一个文件夹，文件夹下建立一个譬如test.py的文件。
然后用小朋友学python的工具打开，试着复制下面我们跑一跑，

能跑能下载这些图片的话，可以尝试抄几遍。

[Python] 纯文本查看 复制代码

import requests
import re

url = 'http://bbs.tianya.cn/post-no04-2163192-1.shtml'
response = requests.get(url).text
# 不管三七二十一，先抄，然后再百度了解正则表达式如何提取内容，[/size][size=4][size=4]我们需要提取啥内容，这么抄的逻辑是什么，[/size]想了解的变量可以print看看打印出来的是啥
maplists = re.findall('original="(.+?)"',response)
i=0
for maplist in maplists:
    map_res = requests.get(maplist)
    i += 1
    path = '%03d.jpg'%i
    with open(path,'wb') as f:
        f.write(map_res.content)
        print('已完成%03d张图片下载'%i)

十几行代码，可以快速爬上百张图片，瞬间可以提升学习的兴趣。
四、熟读唐诗三百首，不会作诗也会吟
关于大家好奇的如何批量爬小姐姐的壁纸？
理清逻辑，和手动一样，第一步：打开链接，第二步：获取图片位置，第三部：保存图片。

譬如，我们先来试试如何通过试着改一改前面这个例子，保存小姐姐的图片。

[Python] 纯文本查看 复制代码

import requests
import re


url = 'https://www.bilibili.com/read/cv4535874/'
response = requests.get(url).text
maplists = re.findall('data-src="(.+?)"', response)
# 先打印获取的链接
print(maplists)
i = 0
for maplist in maplists:
    # 链接不完整，我们给它补全https：//
    maplist = 'https:%s'%maplist
    print(maplist)
    map_res = requests.get(maplist)
    i += 1
    # 这里的图片是webp格式
    path = '%03d.webp' % i
    with open(path, 'wb') as f:
        f.write(map_res.content)
        print('已完成%03d张图片下载' % i)

这不，改改就成了。

txq0211 · 发表于 2022-5-13 10:22

lcldh 发表于 2022-5-13 09:18
评分收藏了，很好的学习思路。谢谢楼主分享。
请问楼主，可以出一个提取目录标题TXT的思路吗？谢谢

https://www.52pojie.cn/thread-1617083-1-1.html
有的

txq0211 · 发表于 2022-4-4 07:33

luxingyu329 发表于 2022-4-4 00:45
这是关键，去哪抄？我现在需要

万事不知找度娘。
遇到啥问题，根据自己的想法分解步骤。
报错，百度错误代码。

星光熠熠 · 发表于 2022-4-2 23:29

关键是还是没学会

txq0211 · 发表于 2022-4-2 23:37

星光熠熠发表于 2022-4-2 23:29
关键是还是没学会

从简单的慢慢试着改改就好了

cfsxy · 发表于 2022-4-3 05:20

谢谢分享

jffwoo · 发表于 2022-4-3 07:40

一门语言想学号都不容易

愷龍 · 发表于 2022-4-3 08:03

提示: 作者被禁止或删除内容自动屏蔽

beyond1994 · 发表于 2022-4-3 08:54

关注，期待持续更新

bdpqnumw · 发表于 2022-4-3 09:04

原来是高级玩家，我只是来看爬虫的。告辞！

zm55555 · 发表于 2022-4-3 09:19

谢谢分享！

70manlyczj · 发表于 2022-4-3 09:55

楼主很文艺嘛，期待更新

帐号		自动登录	找回密码
密码			注册[Register]

愷龍愷龍当前离线好友阅读权限 0 听众最后登录 1970-1-1 头像被屏蔽	愷龍发表于 2022-4-3 08:03 提示: 作者被禁止或删除内容自动屏蔽
愷龍愷龍当前离线好友阅读权限 0 听众最后登录 1970-1-1 头像被屏蔽
	回复支持举报

[Python 转载] 爬虫之引导小白之菜鸟心法

免费评分