吾爱破解 - LCG - LSG |安卓破解|病毒分析|www.52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 4488|回复: 19
收起左侧

[Python 转载] 简易爬虫-抓取某个音乐网站的资源

  [复制链接]
蟹老板阿 发表于 2020-11-21 16:41
[Python] 纯文本查看 复制代码
#!/usr/bin/python
# -*- coding: utf-8 -*-
import requests
import re
import time

songKey     = []  #存放歌曲key(url相关)
songNames   = []  #存放歌曲名称
Author      = []

url   = "https://www.hifini.com/" #网站首页的URL
#url   = "<a href=\"thread-62290.htm\"……>金池《谁不是》[FLAC/MP3-320K]</a><a href=\"thread-62290.htm\">金池《谁不是》[FLAC/MP3-320K]</a>"
html  = requests.get(url)
strr  = html.text
pat1 = 'thread-......htm'
song_url = re.findall(pat1,strr)
song_url = set(song_url)
#part2 = re.findall('《*》',html)
#part0 = re.findall(r"^(<a href=\")(\d+)(\">)",url,re.M)  #用于解析歌曲所在的html字符串的正则
#print song_url
for i in song_url:
    song_html = requests.get("https://www.hifini.com/"+i)
    strr2 = song_html.text
    realsong_url = re.findall(' url: \'(.*?)\',',strr2,re.S)
    songNames = re.findall(' title: \'(.*?)\',',strr2,re.S)
    PicUrl = re.findall(' pic: \'(.*?)\'',strr2,re.S)
    Author = re.findall(' author:\'(.*?)\',',strr2,re.S)
    
    Realsong_url = "".join(realsong_url)
    SongNames = "".join(songNames)
    Picurl = "".join(PicUrl)
    AuThor = "".join(Author)
   
    print(Realsong_url)
    print(SongNames)
    print(Picurl)
    print(AuThor) 
    print()
#    source_data = "www.hifini.com/"+ Realsong_url
#    print("song_url = " + source_data)
#    print("song_name = " + SongNames)
#    print("pic_url = " + Picurl)
#    print("author = " + AuThor)
#    print()
        

免费评分

参与人数 3吾爱币 +3 热心值 +3 收起 理由
Remember.f + 1 + 1 用心讨论,共获提升!
hshcompass + 1 + 1 热心回复!
iuhgnor + 1 + 1 谢谢@Thanks!

查看全部评分

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

 楼主| 蟹老板阿 发表于 2020-11-27 14:52
papa08 发表于 2020-11-21 18:34
点赞楼主!一直都想学Python的,也想学这个爬虫,有学习资料什么好推荐的吗?

看bilibili自己学习,不要觉得python很难,python只是脚本语言,做基本的爬虫很简单
fuli2018 发表于 2020-11-28 02:59
蟹老板阿 发表于 2020-11-24 20:40
我这个是极其简易的抓取脚本,不算严格意义上的爬虫,一切合法,只做学习用

看了是64k音质!一点用没有!么意义!浪费表情!需要高清建议不要下载了!白忙活
fuli2018 发表于 2020-11-21 17:39
mrlee2333 发表于 2020-11-21 17:42
&#128077;&#128077;
乄Spectre乄 发表于 2020-11-21 17:46
感谢分享!!
lonelydrunk 发表于 2020-11-21 19:05
能不能加多点注释,小白不懂
Dream: 发表于 2020-11-21 19:20
纯小白看不懂
lmaxys 发表于 2020-11-21 21:45
以后的趋势是各网站反爬虫机制越来越健全
hshcompass 发表于 2020-11-22 08:50
谢谢分享
wanshiz 发表于 2020-11-22 10:57
谢谢分享,借鉴下。
健康的小牛牛 发表于 2020-11-22 11:25
正在学习中,抱走了,谢谢分享
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则 警告:本版块禁止灌水或回复与主题无关内容,违者重罚!

快速回复 收藏帖子 返回列表 搜索

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-5-16 17:14

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表