吾爱破解 - LCG - LSG |安卓破解|病毒分析|破解软件|www.52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 251|回复: 31

[求助] PYTHON爬虫中网页编码问题,求大神路过帮忙解决下

[复制链接]
发表于 2018-8-10 17:35 | 显示全部楼层
发帖求助前要善用【论坛搜索】功能,那里可能会有你要找的答案;
求助软件脱壳或者破解思路时,请务必在主题帖中描述清楚你的分析思路与方法,否则会当作求脱求破处理;
如果你在论坛求助问题,并且已经从坛友或者管理的回复中解决了问题,请把帖子分类改成【已解决】
如何回报帮助你解决问题的坛友,一个好办法就是给对方加【热心】和【CB】,加分不会扣除自己的积分,做一个热心并受欢迎的人。
  新人刚入坑学习爬虫,用的pycharm最新版本,今天刚爬取一个网页的时候,碰上了之前没碰到过的编码  gb2312,跟着视频讲解,用gbk解码,
代码是 print(response.content.decode('gbk'))
但是没用,总是显示如下错误代码.
'gbk' codec can't decode byte 0xd0 in position 11315: illegal multibyte sequence
麻烦各位能否告知,是软件设置中的问题,还是有什么包没加载~

发帖求助前要善用论坛搜索功能,那里可能会有你要找的答案;

如果你在论坛求助问题,并且已经从坛友或者管理的回复中解决了问题,请把帖子分类或者标题加上【已解决】

如何回报帮助你解决问题的坛友,一个好办法就是给对方加【热心】,加分不会扣除自己的积分,做一个热心并受欢迎的人!

发表于 2018-8-11 11:19 | 显示全部楼层
把代码全部贴出来看一下。

免费评分

参与人数 1吾爱币 +1 热心值 +1 收起 理由
evilkid + 1 + 1 不管能否解答,谢谢@Thanks!~

查看全部评分

发帖求助前要善用论坛搜索功能,那里可能会有你要找的答案;

如果你在论坛求助问题,并且已经从坛友或者管理的回复中解决了问题,请把帖子分类或者标题加上【已解决】

如何回报帮助你解决问题的坛友,一个好办法就是给对方加【热心】,加分不会扣除自己的积分,做一个热心并受欢迎的人!

 楼主| 发表于 2018-8-13 16:32 | 显示全部楼层
陈家丶妖孽 发表于 2018-8-13 15:19
你这个错误是指:列表范围越界了。你把所有的代码全部复制出来。我来运行看看。

#encoding:utf-8

from bs4 import BeautifulSoup

html = '''
    <table class="tablelist" cellpadding="0" cellspacing="0">
                            <tbody><tr class="h">
                                    <td class="l" width="374">职位名称</td>
                                    <td>职位类别</td>
                                    <td>人数</td>
                                    <td>地点</td>
                                    <td>发布时间</td>
                            </tr>
                                                        <tr class="even">
                                    <td class="l square"><a target="_blank" href="position_detail.php?id=43298&amp;keywords=python&amp;tid=0&amp;lid=0">SNG08-微视视频推荐后台开发(深圳)</a><span class="hot">&nbsp;</span></td>
                                        <td>技术类</td>
                                        <td>3</td>
                                        <td>深圳</td>
                                        <td>2018-08-12</td>
                            </tr>
                                                        <tr class="odd">
                                    <td class="l square"><a target="_blank" href="position_detail.php?id=43233&amp;keywords=python&amp;tid=0&amp;lid=0">GY0-数据产品经理</a></td>
                                        <td>产品/项目类</td>
                                        <td>1</td>
                                        <td>深圳</td>
                                        <td>2018-08-12</td>
                            </tr>
                                                        <tr class="even">
                                    <td class="l square"><a target="_blank" href="position_detail.php?id=43225&amp;keywords=python&amp;tid=0&amp;lid=0">WXG02-134 微信数据平台运营工程师(广州)</a></td>
                                        <td>技术类</td>
                                        <td>1</td>
                                        <td>广州</td>
                                        <td>2018-08-12</td>
                            </tr>
                                                        <tr class="odd">
                                    <td class="l square"><a target="_blank" href="position_detail.php?id=43226&amp;keywords=python&amp;tid=0&amp;lid=0">SNG17-QQ钱包后台开发工程师(深圳)</a></td>
                                        <td>技术类</td>
                                        <td>1</td>
                                        <td>深圳</td>
                                        <td>2018-08-12</td>
                            </tr>
                                                        <tr class="even">
                                    <td class="l square"><a target="_blank" href="position_detail.php?id=43203&amp;keywords=python&amp;tid=0&amp;lid=0">25924-互娱游戏网站运维工程师(上海)</a></td>
                                        <td>技术类</td>
                                        <td>1</td>
                                        <td>上海</td>
                                        <td>2018-08-12</td>
                            </tr>
                                                        <tr class="odd">
                                    <td class="l square"><a target="_blank" href="position_detail.php?id=43181&amp;keywords=python&amp;tid=0&amp;lid=0">SNG17-支付后台开发工程师(深圳)</a></td>
                                        <td>技术类</td>
                                        <td>5</td>
                                        <td>深圳</td>
                                        <td>2018-08-12</td>
                            </tr>
                                                        <tr class="even">
                                    <td class="l square"><a target="_blank" href="position_detail.php?id=43171&amp;keywords=python&amp;tid=0&amp;lid=0">27092-应用宝商业化后台开发(深圳)</a><span class="hot">&nbsp;</span></td>
                                        <td>技术类</td>
                                        <td>2</td>
                                        <td>深圳</td>
                                        <td>2018-08-12</td>
                            </tr>
                                                        <tr class="odd">
                                    <td class="l square"><a target="_blank" href="position_detail.php?id=43173&amp;keywords=python&amp;tid=0&amp;lid=0">25927-高级测试开发工程师(深圳)</a><span class="hot">&nbsp;</span></td>
                                        <td>技术类</td>
                                        <td>1</td>
                                        <td>深圳</td>
                                        <td>2018-08-12</td>
                            </tr>
                                                        <tr class="even">
                                    <td class="l square"><a target="_blank" href="position_detail.php?id=43175&amp;keywords=python&amp;tid=0&amp;lid=0">22989-云服务开发工程师(NLP方向)(北京)</a><span class="hot">&nbsp;</span></td>
                                        <td>技术类</td>
                                        <td>1</td>
                                        <td>北京</td>
                                        <td>2018-08-12</td>
                            </tr>
                                                        <tr class="odd">
                                    <td class="l square"><a target="_blank" href="position_detail.php?id=43140&amp;keywords=python&amp;tid=0&amp;lid=0">23673-高级全栈工程师(偏向后端)(北京)</a></td>
                                        <td>技术类</td>
                                        <td>1</td>
                                        <td>北京</td>
                                        <td>2018-08-12</td>
                            </tr>
                                                        <tr class="f">
                                    <td colspan="5">
                                            <div class="left">共<span class="lightblue total">513</span>个职位</div>
                                            <div class="right"><div class="pagenav"><a href="javascript:;" class="noactive" id="prev">上一页</a><a class="active" href="javascript:;">1</a><a href="position.php?keywords=python&amp;start=10#a">2</a><a href="position.php?keywords=python&amp;start=20#a">3</a><a href="position.php?keywords=python&amp;start=30#a">4</a><a href="position.php?keywords=python&amp;start=40#a">5</a><a href="position.php?keywords=python&amp;start=50#a">6</a><a href="position.php?keywords=python&amp;start=60#a">7</a><a href="position.php?keywords=python&amp;start=70#a">...</a><a href="position.php?keywords=python&amp;start=510#a">52</a><a href="position.php?keywords=python&amp;start=10#a" id="next">下一页</a><div class="clr"></div></div></div>
                                            <div class="clr"></div>
                                    </td>
                            </tr>
                    </tbody></table>
'''

soup = BeautifulSoup(html,"lxml")
#1.获取所有的tr标签
# trs = soup.find_all('tr')
# for tr in trs:
#     print(tr)
#     print('='*30)
#     print(type(tr))

#2.获取第二个tr标签
# tr = soup.find_all('tr',limit=2)[1]
# print(tr)

#3.获取所有class等于even的标签
# trs = soup.find_all('tr',class_='even')
# for tr in trs:
#     print(tr)
#     print('='*30)

#4.将所有id等于test,class也等于test的a标签提取出来
# aList = soup.find_all('a',id='prev',class_='noactive')
# for a in aList:
#     print(a)

#5.获取所有a标签的href属性
# aList = soup.find_all('a')
# for a in aList:
    #1.通过下标操作的方式
    # href = a['href']
    # print(href)
    #2.通过attrs属性的方式
    # href = a.attrs['href']
    # print(href)

#6.获取所有职位信息,并纯文本要求

trs = soup.find_all('tr')[1:]
movies = []
for tr in trs:
    movie = { }
#1.第一种方式,(ps:数据格式问题,暂时有bug)
    tds = tr.find_all('td')
    title = tds[0].string
    category = tds[1].string
    nums = tds[2].string
    city = tds[3].string
    pubtime = tds[4].string
    movie['title'] = title
    movie['category'] = category
    movie['nums'] = nums
    movie['city'] = city
    movie['pubtime'] = pubtime
    movies.append(movie)
##2。第二种方式
    # infos = list(tr.stripped_strings)
    # movie['title'] = infos[0]
    # movie['category'] = infos[1]
    # movie['nums'] = infos[2]
    # movie['city'] = infos[3]
    # movie['pubtime'] = infos[4]
    # movies.append(movie)

print(movies)

发帖求助前要善用论坛搜索功能,那里可能会有你要找的答案;

如果你在论坛求助问题,并且已经从坛友或者管理的回复中解决了问题,请把帖子分类或者标题加上【已解决】

如何回报帮助你解决问题的坛友,一个好办法就是给对方加【热心】,加分不会扣除自己的积分,做一个热心并受欢迎的人!

发表于 2018-8-10 17:49 | 显示全部楼层

发帖求助前要善用论坛搜索功能,那里可能会有你要找的答案;

如果你在论坛求助问题,并且已经从坛友或者管理的回复中解决了问题,请把帖子分类或者标题加上【已解决】

如何回报帮助你解决问题的坛友,一个好办法就是给对方加【热心】,加分不会扣除自己的积分,做一个热心并受欢迎的人!

发表于 2018-8-10 17:54 | 显示全部楼层
试一下用utf-8

发帖求助前要善用论坛搜索功能,那里可能会有你要找的答案;

如果你在论坛求助问题,并且已经从坛友或者管理的回复中解决了问题,请把帖子分类或者标题加上【已解决】

如何回报帮助你解决问题的坛友,一个好办法就是给对方加【热心】,加分不会扣除自己的积分,做一个热心并受欢迎的人!

发表于 2018-8-10 17:55 | 显示全部楼层
想爬哪个网站,发出来,我帮你写一下

发帖求助前要善用论坛搜索功能,那里可能会有你要找的答案;

如果你在论坛求助问题,并且已经从坛友或者管理的回复中解决了问题,请把帖子分类或者标题加上【已解决】

如何回报帮助你解决问题的坛友,一个好办法就是给对方加【热心】,加分不会扣除自己的积分,做一个热心并受欢迎的人!

发表于 2018-8-10 17:57 | 显示全部楼层
python就是这种编码问题最多了

网上这种问题一大堆,建议百度。

发帖求助前要善用论坛搜索功能,那里可能会有你要找的答案;

如果你在论坛求助问题,并且已经从坛友或者管理的回复中解决了问题,请把帖子分类或者标题加上【已解决】

如何回报帮助你解决问题的坛友,一个好办法就是给对方加【热心】,加分不会扣除自己的积分,做一个热心并受欢迎的人!

发表于 2018-8-10 18:19 | 显示全部楼层
善用搜索引擎 比你在论坛问快多了

发帖求助前要善用论坛搜索功能,那里可能会有你要找的答案;

如果你在论坛求助问题,并且已经从坛友或者管理的回复中解决了问题,请把帖子分类或者标题加上【已解决】

如何回报帮助你解决问题的坛友,一个好办法就是给对方加【热心】,加分不会扣除自己的积分,做一个热心并受欢迎的人!

发表于 2018-8-10 18:20 | 显示全部楼层
有事找度娘

发帖求助前要善用论坛搜索功能,那里可能会有你要找的答案;

如果你在论坛求助问题,并且已经从坛友或者管理的回复中解决了问题,请把帖子分类或者标题加上【已解决】

如何回报帮助你解决问题的坛友,一个好办法就是给对方加【热心】,加分不会扣除自己的积分,做一个热心并受欢迎的人!

发表于 2018-8-10 18:38 | 显示全部楼层
把'gbk' 改成 'utf-8' 就好了

发帖求助前要善用论坛搜索功能,那里可能会有你要找的答案;

如果你在论坛求助问题,并且已经从坛友或者管理的回复中解决了问题,请把帖子分类或者标题加上【已解决】

如何回报帮助你解决问题的坛友,一个好办法就是给对方加【热心】,加分不会扣除自己的积分,做一个热心并受欢迎的人!

发表于 2018-8-10 18:45 | 显示全部楼层
滴滴不懂

发帖求助前要善用论坛搜索功能,那里可能会有你要找的答案;

如果你在论坛求助问题,并且已经从坛友或者管理的回复中解决了问题,请把帖子分类或者标题加上【已解决】

如何回报帮助你解决问题的坛友,一个好办法就是给对方加【热心】,加分不会扣除自己的积分,做一个热心并受欢迎的人!

发表于 2018-8-10 19:23 | 显示全部楼层
你要看网页是什么编码方式

发帖求助前要善用论坛搜索功能,那里可能会有你要找的答案;

如果你在论坛求助问题,并且已经从坛友或者管理的回复中解决了问题,请把帖子分类或者标题加上【已解决】

如何回报帮助你解决问题的坛友,一个好办法就是给对方加【热心】,加分不会扣除自己的积分,做一个热心并受欢迎的人!

您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则


免责声明:
吾爱破解所发布的一切破解补丁、注册机和注册信息及软件的解密分析文章仅限用于学习和研究目的;不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负。本站信息来自网络,版权争议与本站无关。您必须在下载后的24个小时之内,从您的电脑中彻底删除上述内容。如果您喜欢该程序,请支持正版软件,购买注册,得到更好的正版服务。如有侵权请邮件与我们联系处理。

Mail To:Service@52PoJie.Cn

快速回复 收藏帖子 返回列表 搜索

RSS订阅|手机版|小黑屋|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2018-8-17 07:24

Powered by Discuz!

© 2001-2017 Comsenz Inc.

快速回复 返回顶部 返回列表