快速爬取抖音作者主页视频的异步爬虫

yinghihi · 发表于 2022-9-21 19:51

此爬虫只是对站内另一爬虫的异步改写，原帖在这里：https://www.52pojie.cn/thread-1685010-1-1.html经测试，在爬取时有时会有卡顿情况，但爬虫本身并未报错，所以这个应该是api接口不能及时传回数据导致的，耐心等待下即可。

演示：

爬虫代码：

[Python] 纯文本查看 复制代码

import re
import os
import requests
import aiohttp
import aiofiles
import asyncio # win下注释掉此行
import uvloop

asyncio.set_event_loop_policy(uvloop.EventLoopPolicy())    # win下注释掉此行
headers = {
    'User-Agent': 'Mozilla/5.0 (iPhone; CPU iPhone OS 13_2_3 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/13.0.3 Mobile/15E148 Safari/604.1'
}
 
quantity = 0  # 初始视频数量
indexNum = 1 
async def start(session,sec_uid,max_cursor='0'):
    global quantity
    apiUrl = f'https://m.douyin.com/web/api/v2/aweme/post/?reflow_source=reflow_page&sec_uid={sec_uid}&count=21&max_cursor={max_cursor}'
    data = await getData(session,apiUrl)  # 请求数据
    # print(data)
    max_cursor = data['max_cursor']  # 获取max_cursor
    aweme_list = data['aweme_list']  # 获取视频列表
    tasks = []
    for aweme in aweme_list:  # 遍历视频列表
        quantity += 1  # 视频数量+1
        video_name = aweme['desc']  # 获取视频名称
        video_url = aweme['video']['play_addr']['url_list'][0]  # 获取视频地址
        nickname = aweme['author']['nickname']  # 获取作者昵称
        video_name = video_name.replace('\n', ' ')  # 吧\n替换成空格
        video_name = re.sub(r'[\/:*?"<>|]', '-', video_name)  # 替换文件名中的特殊字符
        # print(f'正在下载第{quantity}个视频：{video_name}')  # 打印视频名称
        if video_name == '':
            video_name = str(quantity) + nickname  # 如果视频名称为空，就用视频数量+作者昵称作为视频名称
        task = asyncio.create_task(downVideo(session,video_url,video_name,nickname))
        tasks.append(task)

    await asyncio.wait(tasks)    
    has_more = data['has_more']
    if not has_more:  # 如果has_more为False 说明没有更多视频了
        print(f'视频下载结束！共下载{quantity}个视频')
        return  # 退出循环
    else:
        await start(session,sec_uid,max_cursor)

async def downVideo(session,url,videoname,nickname):
    global indexNum
    async with session.get(url,headers=headers) as resp:
        if resp.status == 200:
            videoContent = await resp.read()
            downloadPath = "/home/yin/download"
            if not os.path.exists(f'{downloadPath}/{nickname}'):  # 如果作者文件夹不存在，就创建
                os.mkdir(f'{downloadPath}/{nickname}')  # 如果作者文件夹不存在，就创建一个
            async with aiofiles.open(f'{downloadPath}/{nickname}/{videoname}.mp4', 'wb') as f:
                print(f'正在下载第{indexNum}个视频：{videoname}')  # 打印视频名称
                await f.write(videoContent)
                indexNum +=1

async def getData(session,url):
    async with session.get(url,headers=headers) as resp:
        if resp.status == 200 or resp.status ==302:
            apiJson = await resp.json()
            return apiJson

async def indexInfo(url):
    try:
        sec_uid = re.findall('user/(.*)\?', url)[0]  # 从url中提取sec_uid
    except:
        sec_uid = re.findall('user/(.*)', url)[0]
    return sec_uid

async def main(offset):
    secUid = await indexInfo(offset)
    async with aiohttp.ClientSession() as session:
        await start(session,secUid)
 
if __name__ == '__main__':
    url = input('请输入作者主页链接：')  # 输入作者主页链接 例：https://www.douyin.com/user/MS4wLjABAAAAm-YgirNQo_9nm1B8TNynOD5ZrYBtesVrgBuaZaS2dzQ?vid=6907843457583205646
    url = requests.get(url, headers=headers).url  # 获取重定向后的url
    asyncio.run(main(url))

lanlinux · 发表于 2022-9-22 08:52

厉害我也试试楼主牛皮

xiaohanGG · 发表于 2022-12-7 23:39

import re
import os
import requests
import aiohttp
import aiofiles

headers = {
'User-Agent': 'Mozilla/5.0 (iPhone; CPU iPhone OS 13_2_3 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/13.0.3 Mobile/15E148 Safari/604.1'
}

quantity = 0  # 初始视频数量
indexNum = 1
async def start(session,sec_uid,max_cursor='0'):
global quantity
apiUrl = f'https://m.douyin.com/web/api/v2/aweme/post/?reflow_source=reflow_page&sec_uid={sec_uid}&count=21&max_cursor={max_cursor}'
data = await getData(session,apiUrl)  # 请求数据
# print(data)
max_cursor = data['max_cursor']  # 获取max_cursor
aweme_list = data['aweme_list']  # 获取视频列表
tasks = []
for aweme in aweme_list:  # 遍历视频列表
      quantity += 1  # 视频数量+1
      video_name = aweme['desc']  # 获取视频名称
      video_url = aweme['video']['play_addr']['url_list'][0]  # 获取视频地址
      nickname = aweme['author']['nickname']  # 获取作者昵称
      video_name = video_name.replace('\n', ' ')  # 吧\n替换成空格
      video_name = re.sub(r'[\/:*?"<>|]', '-', video_name)  # 替换文件名中的特殊字符
      # print(f'正在下载第{quantity}个视频：{video_name}')  # 打印视频名称
      if video_name == '':
         video_name = str(quantity) + nickname  # 如果视频名称为空，就用视频数量+作者昵称作为视频名称
      task = asyncio.create_task(downVideo(session,video_url,video_name,nickname))
      tasks.append(task)

await asyncio.wait(tasks)
has_more = data['has_more']
if not has_more:  # 如果has_more为False 说明没有更多视频了
      print(f'视频下载结束！共下载{quantity}个视频')
      return  # 退出循环
else:
      await start(session,sec_uid,max_cursor)

async def downVideo(session,url,videoname,nickname):
global indexNum
async with session.get(url,headers=headers) as resp:
      if resp.status == 200:
         videoContent = await resp.read()
         downloadPath = "/home/yin/download"
         if not os.path.exists(f'{downloadPath}/{nickname}'):  # 如果作者文件夹不存在，就创建
            os.mkdir(f'{downloadPath}/{nickname}')  # 如果作者文件夹不存在，就创建一个
         async with aiofiles.open(f'{downloadPath}/{nickname}/{videoname}.mp4', 'wb') as f:
            print(f'正在下载第{indexNum}个视频：{videoname}')  # 打印视频名称
            await f.write(videoContent)
            indexNum +=1

async def getData(session,url):
async with session.get(url,headers=headers) as resp:
      if resp.status == 200 or resp.status ==302:
         apiJson = await resp.json()
         return apiJson

async def indexInfo(url):
try:
      sec_uid = re.findall('user/(.*)\?', url)[0]  # 从url中提取sec_uid
except:
      sec_uid = re.findall('user/(.*)', url)[0]
return sec_uid

async def main(offset):
secUid = await indexInfo(offset)
async with aiohttp.ClientSession() as session:
      await start(session,secUid)

async def do_not_raise(user_defined_coroutine):
try:
      await user_defined_coroutine
except CancelledError:
      raise
except Exception:
      logger.warning("User defined logic raises an exception", exc_info=True)
      # ignore


if __name__ == '__main__':
url = input('请输入作者主页链接：')  # 输入作者主页链接例：https://www.douyin.com/user/MS4wLjABAAAAm-YgirNQo_9nm1B8TNynOD5ZrYBtesVrgBuaZaS2dzQ?vid=6907843457583205646
url = requests.get(url, headers=headers).url  # 获取重定向后的url
asyncio.run(main(url))

报错Traceback (most recent call last):
  File "C:/Program Files/Python311/dy.py", line 89, in <module>
asyncio.run(main(url))
NameError: name 'asyncio' is not defined

刻下ing · 发表于 2022-9-22 08:24

顶，这样也可以摘出，单个视频的下载方法

pangiggs · 发表于 2022-9-22 08:49

厉害，直接在ide里面运行吗？

yuweb · 发表于 2022-9-22 08:57

嘿嘿我也来试一下

teondy · 发表于 2022-9-22 10:37

厉害试试看

开创者 · 发表于 2022-10-1 17:35

uvloop 这个无论如何也安装不成功，知道原因吗？
py3.7 pip20.2.4
安装时报错误：

[HTML] 纯文本查看 复制代码

Collecting uvloop
  Using cached [url]https://mirrors.aliyun.com/pypi/packages/ba/86/6dda1760481abf244cbd3908b79a4520d757040ca9ec37a79fc0fd01e2a0/uvloop-0.17.0.tar.gz[/url] (2.3 MB)
    ERROR: Error [WinError 2] 系统找不到指定的文件。 while executing command python setup.py egg_info
ERROR: Could not install packages due to an EnvironmentError: [WinError 2] 系统找不到指定的文件。

yinghihi · 发表于 2022-10-1 20:20

开创者发表于 2022-10-1 17:35
uvloop 这个无论如何也安装不成功，知道原因吗？
py3.7 pip20.2.4
安装时报错误：

uvloop不支持windows,注释掉就可以了

开创者 · 发表于 2022-10-1 22:51

yinghihi 发表于 2022-10-1 20:20
uvloop不支持windows,注释掉就可以了

好的，两行删除就行了。

帐号		自动登录	找回密码
密码			注册[Register]

[Python 转载] 快速爬取抖音作者主页视频的异步爬虫

免费评分

本帖被以下淘专辑推荐:

免费评分

个人中心