【北大法宝】最新法律动态爬取(已失效)

Zeaf · 发表于 2020-3-11 21:32

本帖最后由 Zeaf 于 2021-7-29 19:35 编辑

萌新日常练手，忙里偷闲
多页不会...似乎用的Post，萌新暂时只会get{:1_925:}
生成一个表格和图（词云）

[Python] 纯文本查看 复制代码

01

02

03

04

05

06

07

08

09

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

47

48

49

50

51

52

53

54

55

56

# -*- coding: utf-8 -*-
"""
Created on Wed Mar 11 10:50:21 2020
 
@author: Zeaf
"""
 
import requests  # 导入requests库
import re  # 导入正则表达式库
import time  # 导入时间库
import pandas as pd # 导入pandas库
import matplotlib.pyplot as plt
import wordcloud as wc
 
print('created by Zeaf')
print('若想停止请按ctrl+C')
user = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.116 Safari/537.36'
}
response = requests.get('http://www.pkulaw.cn/cluster_form.aspx?Db=news&menu_item=law&EncodingName=&keyword=%u884C%u653F%u590D%u8BAE%u6CD5&range=name&',headers=user)  # 用requests库的get函数访问总网页，用headers进行伪装，获得源码
html = response.text  # 用文本显示访问网页得到的内容
urls = re.findall('href="(.*?)" target="_blank"', html)  # 用正则表达式获得所有文章网址
#创建空列表用于存储数据
title_in = []
date_in = []
place_in = []
keyword_in = []
url_in = []
for url in urls:#循环输出获得的网址
    time.sleep(1)#暂停1s
    url= 'http://www.pkulaw.cn/'+url#因为爬取得到的网址只是部分，故以此方式填充
    response = requests.get(url,headers=user)  # 用requests库的get函数访问总网页，用headers进行伪装，获得源码
    html = response.text  # 用文本显示访问网页得到的内容
    title = re.findall('<strong>(.*?)</strong>', html)  # 获取标题
    date = re.findall('【发布日期】</font> (.*?)</td>', html) # 获取日期
    place = re.findall('【来源】</font> (.*?)</td>', html) # 获取来源
    keyword = re.findall('【关键词语】</font> <a href=".*?" target=_blank>(.*?)</a>', html) # 获取关键词
    #合并数据用于制表
    title_in.append(title[0])#注意这里title为列表，须先读取后导入，下同
    date_in.append(date[0])
    place_in.append(place[0])
    keyword_in.append(keyword[0])
    url_in.append(url)
    print('保存中...')
print('保存成功！')
#导入数据
data={'标题':title_in, '发布日期':date_in, '来源':place_in, '关键词语':keyword_in,'原文链接':url_in}
y=pd.DataFrame(data)
y.to_excel('news.xlsx',index=False)#制表
print('生成表格成功！')
#绘制词云
content = ' '.join(keyword_in)
wordcloud = wc.WordCloud(max_words=50,font_path='simhei.ttf').generate(content)#黑体字
plt.imshow(wordcloud)#绘制
plt.show()
wordcloud.to_file('news.jpg')#保存图片，可以d:\来指定目录

Zeaf · 发表于 2020-6-14 23:25

hshcompass 发表于 2020-6-14 16:17
词云可以好好介绍一下吗？

怎么突然翻我的旧贴。。
这个词云我就只会这个基础啊。。介绍，emmm看着不够明白吗，主要就是相关库的运用哦，建议CSDN看看可能更详细

Zeaf · 发表于 2020-6-14 23:29

1e3e 发表于 2020-6-14 22:07
可以运行但无法生成表格

我特意试了下，可以生成，网站并无变动
有报错信息吗
有提示保存完毕或者生成表格成功吗？
表格就在代码的同目录下

chenchen_82482 · 发表于 2020-3-11 21:54

感谢分享，谢谢楼主

羽莲华 · 发表于 2020-3-11 21:55

感谢分享，谢谢楼主的资源，加油

g00dgame · 发表于 2020-3-11 22:04

这个很深奥，我的好哈研究下，感谢分享！

LG小哥 · 发表于 2020-3-11 22:14

很厉害的样子

七月未见晴 · 发表于 2020-3-12 16:43

这个很深奥，我的好哈研究下，感谢分享

hululove · 发表于 2020-6-3 12:17

安装词云要C++框架好奇怪啊

Zeaf · 发表于 2020-6-3 12:20

hululove 发表于 2020-6-3 12:17
安装词云要C++框架好奇怪啊

这个安装好像是有点不一样，有点久远不太记得

hululove · 发表于 2020-6-3 12:37

试了下没法用啊

Zeaf · 发表于 2020-6-3 13:29

本帖最后由 Zeaf 于 2020-6-3 13:31 编辑

hululove 发表于 2020-6-3 12:37
试了下没法用啊

我刚跑了下完全可行。。。
你看下报错信息吧
表格：https://ws28.cn/f/2ojt677x4rh

帐号		自动登录	找回密码
密码			注册[Register]

[Python 转载] 【北大法宝】最新法律动态爬取(已失效)

免费评分

浏览过的版块