python爬虫入门通用框架【小白向】

riwfhiu · 发表于 2021-1-6 23:29

本帖最后由 riwfhiu 于 2021-1-6 23:49 编辑

为了回应那些私信我怎么学习爬虫看什么视频，想爬某某网站图片怎么改代码，怎么获取页面任意元素的属性值。。。
鸽了这么久，它终于来了，requests库的通用爬虫框架！本文纯小白入门向，已入门的或者大佬轻点喷，我自己也是小白[doge]

爬虫三步走战略：
一.请求网址
二.解析定位
三.保存数据

不讲虚道理，直接上两个实例：
1.获取百度页面标题“新闻”文本，并写入txt
2.获取百度logo图片，并写入图片png

1.伪装访问请求头：按F12 >> Network >> 目标网址 >> 找到请求头

F12获取请求头

2.定位元素（文本）：右键菜单 >> 审查元素

新闻文本元素

3.定位元素（图片）：同理右键菜单 >> 审查元素

logo图片元素

[Python] 纯文本查看 复制代码

'''
需要两个库,打开cmd进行安装
pip3 install requests
pip3 install lxml

'''
import requests,json
from lxml import etree

#=====================================请求区==========================================#
#get模式，获取网页源码，传入参数：url(字符串)
def gethtml(url):
    #伪装头文件，F12打开浏览器,刷新一次：Network > 选目标链接(默认第一个) > Headers
    headers={
    #User-Agent 浏览器标识头，爬虫必备，最好带上。
    "User-Agent":'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36',
    "Cookie":"",        #cookie相当于临时登陆凭证，作用跟账号密码一样，有效期由网站决定，几天到几月不等。带cookies伪装表示已登陆状态。
    "Referer":"https://www.baidu.com",      #Referer表示来源地址，有些网站会检测跨域访问，不合法会拒绝。
    #剩下其它的一些伪装如果能正常访问可以不添加，不能就加上吧
    #"Upgrade-Insecure-Requests": "1",      #比如这个属性是百度网址的，其它网址可能有其它属性值
    }
    r=requests.get(url,headers=headers)     #正式get请求
    if r.status_code !=200:                 #状态码判断返回是否成功,不成功则报错退出
        print("获取url：%s失败!"%(url))
        exit()
    return r                            #直接返回r，为什么不直接返回r.text(文本),因为图片/视频格式是r.content(用二进制写入)


#=====================================解析区==========================================#
#xpath解析接口，输入：xpath格式字符串'//div[id="lg"]/img[@id="s_lg_img_new"]'  注意外面一层是单引号，返回值为list,元素为字符串
#我个人推荐xpath，轻巧强大好用，浏览器自带解析路径，不会写的直接无脑copy,右键元素 > Copy > CopyXpath，复制字符串传入参数即可
#xpath字符串通用写法：//标签[@属性="属性值"]/下一级标签[@属性="属性值"]/text() 取出文本 /@src取出src地址
#例子：//div[@class="text-content"]/a[2]/@href      #取出div下的第2个a的href属性值。
def getxpath(r,str):
    html = etree.HTML(r.text)
    reslist = html.xpath(str)
    return reslist


#=====================================保存区==========================================#
#爬虫目的一般为获取文本/图片/视频等数据，一般要保存下来慢慢看
#文本写入txt，传入参数：txtpath路径，data数据
def writetxt(txtpath,data_str):                         #文本的名字和路径，也可以使用绝对路径，例如 "D:\\爬虫学习\\采集文本.txt"      
    with open(txtpath, "w") as f:
        f.write(str(data_str))

#图片写入jpg/png，传入参数：imgpath路径，content二进制数据
def writeimg(imgpath,content):        #图片的名字和路径
    with open(imgpath, "wb") as f:
        f.write(content)


#================以上三大块就是通用爬虫模板，下面是自己写的想实现的功能====================#
#获取百度首页"新闻"字样，并写入txt中
def get_news_txt():
    #第一步：请求网址先获取html
    url="https://www.baidu.com"
    r=gethtml(url)
    #第二步：解析路径，找到标题对应的xpath路径
    title_xpath='//div[@id="s-top-left"]/a[1]/text()'       #注意外面一层是单引号''，a[1]表示选中第一个a标签, text()取出文本
    title_list=getxpath(r,title_xpath)              #别忘记传入r页面源码哦
    new_str=title_list[0]
    print(f"获取到的文本为：{new_str}")
    #第三步：保存数据写入txt文件中
    writetxt("./爬到的第一个文本.txt",str(new_str))         #文本只能写入字符串
    print("恭喜你爬取了一个文本数据！快打开文件看看吧")

    '''
    #下面是扩展测试# 如果我想打印整个标题栏的所有文本
    title_xpath='//div[@id="s-top-left"]/a/text()'       #a没有选中具体值，返回所有匹配的值
    title_list=getxpath(r,title_xpath)              #别忘记传入r页面源码哦
    print("#====都让开，小孩子才做选择，我全都要！====#")
    title_str=""
    for one in title_list:
        print(one)
        title_str+=str(one)+"  "
    writetxt("./爬到的第一个文本.txt",str(title_str))
    print("恭喜你写入了一个爬虫数据！快打开文件看看吧")
    '''

#获取百度logo，并写入图片中
def get_baidu_logo():
    #同理第一步先请求网址
    url="https://www.baidu.com"
    r=gethtml(url)
    #第二步解析路径
    logo_url_list=getxpath(r,'//img[@id="s_lg_img_new"]/@src')         #这个img一定要找对哦，右键审查元素不一定全都准确，还有这次要取的属性为src链接，而不是text文本
    logo_url=logo_url_list[0]       #如果只有一个值就取[0]
    print(f"获取到了logo图片地址文本：{logo_url}，很明显没有https:这个开头，加个即可完成")
    #处理字符串
    logo_url="https:"+logo_url
    #获取到了logo地址了，直接访问获取图片
    r=gethtml(logo_url)
    #写入图片
    writeimg("./百度logo.png",r.content)     #注意！注意！注意！图片是二进制格式写入，用r.content二进制数据，不要传入r.text文本
    print("恭喜你写入了一张稀有图片(金色传说)！快打开图片看看吧")





#下面这个相当于C语言的main入口
if __name__ == '__main__':
    #获取百度首页"新闻"字样，并写入txt中
    get_news_txt()

    #获取百度logo，并写入图片中
    get_baidu_logo()

    print("\n==============恭喜你完成简单的爬虫任务，顺利毕业啦！===============\n")
    #print("快去爬取淘宝吧！不是 （狗头doge)")

通用框架虽然简单，但修修改改还是可以爬不少网站的，而且保留大量注释给新手说明，基本都能看懂吧。
最快的学习方法就是直接上手撸码，而不是看什么视频学习，不懂再去搜索。
当然连一些html简单基础或者python基础语法都不懂的真小白，只推荐一处学习网站：
【中国大学mooc】：https://www.icourse163.org/
（搜“嵩天”，真正的大佬，启蒙的老师，对小白超友好，别去b站搜索什么营销号的盗版视频了，全损音质不说，废话是真的多）

#========================作者专用挖坑机=============================#
下一章节：post模式全解析，让爬虫发出网络的第一声啼鸣（嗷呜~）

=====下章更新时间：2021春节前后，这次应该不咕了，嗯应该吧

希望这篇文章对你有用，记得给个热心值呀，这样才有动力去更新呀~

慵懒丶L先森 · 发表于 2021-1-7 02:09

看视频或者书籍的正确观：并不是说看了就会，视频和书籍是辅助工具，真正要学习起来的话就是对照着视频和书籍挨个挨个敲代码，多注释。然后开始有目的性的用学到的东西造轮子。感谢分享，这帖子对于新手挺友好的，爬虫基本上也就是这个框架了，后期要学的就是突破反爬虫机制

十一大魔王i · 发表于 2021-1-6 23:39

先收藏了

飓风861 · 发表于 2021-1-7 00:05

收藏了，谢谢大佬

知味8848 · 发表于 2021-1-7 00:09

已收藏评分，希望系列更新

lcl0219 · 发表于 2021-1-7 00:12

感谢大佬收藏了

a3322a · 发表于 2021-1-7 07:03

感谢分享，很有帮助！

zz1181 · 发表于 2021-1-7 07:23

很需要呀，谢谢大佬

nullable · 发表于 2021-1-7 08:08

感谢大佬分享，已经写得十分细致。

lfm333 · 发表于 2021-1-7 08:22

学习了，感谢大佬分享

帐号		自动登录	找回密码
密码			注册[Register]

[Python 转载] python爬虫入门通用框架【小白向】

免费评分

个人中心