怎么用python爬取《北京新闻》当天的稿件名称？

csmy2012 · 发表于 2020-4-30 12:22

本帖最后由 csmy2012 于 2020-4-30 13:06 编辑

想用python爬取《北京新闻》当天发的所有稿件的名称，该怎么抓取吗？用beautifulsoup抓到的只是页面代码，没有题目。像这种网站该怎么抓取呢？？？？请大佬指点，谢谢。
网址是：https://www.btime.com/btv/btvxw_bjxm

154568q2 · 发表于 2020-4-30 12:27

现在网站一般用的异步，找到那个数据接口就好了

kjq970 · 发表于 2020-4-30 12:47

确实很多网站都是异步接口方式，但是很显然北京新闻不是

Mr.A · 发表于 2020-4-30 13:05

用正则不好吗？

csmy2012 · 发表于 2020-4-30 13:07

Mr.A 发表于 2020-4-30 13:05
用正则不好吗？

抓不到数据啊。好像是用JS传的数据。

天黑我隐身 · 发表于 2020-4-30 13:20

直接GET访问可以拿到数据

[Asm] 纯文本查看 复制代码

https://pc.api.btime.com/btimeweb/infoFlow？callback=jQuery111302443487968915008_1588223558054&list_id=btv_983ba33ce3932fcdf206f0d5bf7cfce1_s0_2020&refresh=1&count=20&expands=pageinfo&_=1588223558056

当然最好去把查询参数是怎么生成的都看一下

yuhan694 · 发表于 2020-4-30 13:45

本帖最后由 yuhan694 于 2020-4-30 13:50 编辑

https://pc.api.btime.com/btimeweb/infoFlow?callback=jQuery111308533989670206625_1588224572372&list_id=btv_983ba33ce3932fcdf206f0d5bf7cfce1_s0_2020&refresh=1&count=20&expands=pageinfo&_=1588224572374
微信截图_20200430134434.png

refresh是页数， list_id后面是年份
callback和_:要js分析吧

hawkpcnet · 发表于 2020-4-30 13:48

都是高手啊，啥都会整

xiaotwins · 发表于 2020-4-30 13:57

xpath

xiaotwins · 发表于 2020-4-30 14:01

帐号		自动登录	找回密码
密码			注册[Register]

[求助] 怎么用python爬取《北京新闻》当天的稿件名称？

免费评分

个人中心