业余爱好『Favourite』

BeautifulSoup4 中文乱码

2021年6月16日没有评论

BeautifulSoup4解析页面的时候发现有一部分内容是乱码，刚开始还以为是pycharm的问题，后来发现可能问题不是出在pycharm上，因为普通的print打印的中文是没有问题的。测试代码如下：

def proxy_get(url):
    if is_use_proxy:
        socks.set_default_proxy(socks.SOCKS5, PROXY_HOST, PROXY_PORT)
        socket.socket = socks.socksocket
    req = requests.get(url, headers=HEADERS)
    return req.text


def get_sub_pages_test(url):
    '''
    http://www.meitulu.cn/t/shishen/
    :param url:
    :return:
    '''
    bs = BeautifulSoup(proxy_get(url), "html.parser")
    boxes = bs.find('div', class_='boxs')
    lis = boxes.find_all('li')
    log_text('PAGE', '开始分析页面链接', is_begin=True)
    for l in lis:
        p = l.find('p', class_='p_title')
        print( p.text)

后来想到可能是网络请求编码导致的，那么只要修改请求代码添加编码信息即可。

def proxy_get(url):
    if is_use_proxy:
        socks.set_default_proxy(socks.SOCKS5, PROXY_HOST, PROXY_PORT)
        socket.socket = socks.socksocket
    req = requests.get(url, headers=HEADERS)
    req.encoding = 'utf-8' #设置编码格式
    return req.text

此时再去请求就ok了。

☆版权☆

* 网站名称：obaby@mars
* 网址：https://h4ck.org.cn/
* 个性：https://oba.by/
* 本文标题：《BeautifulSoup4 中文乱码》
* 本文链接：https://h4ck.org.cn/2021/06/8318
* 短链接：https://oba.by/?p=8318
* 转载文章请标明文章来源，原文标题以及原文链接。请遵从《署名-非商业性使用-相同方式共享 2.5 中国大陆 (CC BY-NC-SA 2.5 CN) 》许可协议。

BeautifulSoup4 Python3 requests 中文乱码

Previous Post Next Post

obaby

爱好广泛的火星小妖精，有问题欢迎留言交流啊~(✪ω✪) 爬虫类工具请先点击这个链接查看用法https://oba.by/?p=12240 闺蜜圈APP下载 https://guimiquan.cn

发表回复取消回复

本站所破解的程序仅限于分析研究只用，不可用于非法用途，如果喜欢该软件请购买正版。由于程序所造成的损失本人概不负责。(Findu App由于阿里旺信服务关闭，暂时停止推荐，如果想和我一块开发，请联系我~~)

QQ：382291381
QQ群：777692920

本站其他域名列表(301跳转本站)：

da.bi oba.by nai.dog lang.bi lang.ma h4ck.ws baidu.bi too.baby loli.gifts obaby.love obaby.blog danteng.me zhongxiaojie.com zhongxiaojie.cn

刘郎 on 流量没了ಥ_ಥ: “好吧😂 Wifi呀” 4 月 23, 16:14
obaby on 流量没了ಥ_ಥ: “是无限流量但是限速了网页打开都得半天…” 4 月 23, 16:12
刘郎 on 流量没了ಥ_ಥ: “我的是中国移动，无限流量😀😀” 4 月 23, 16:03
皇家元林 on Windows11 Photos无法打开jpg图片: “2022版，我重新找个新版的试试。” 4 月 23, 14:14
obaby on Windows11 Photos无法打开jpg图片: “mac 也有 mac 的问题，😂” 4 月 23, 13:47
dujun on Windows11 Photos无法打开jpg图片: “人生苦短，我用mac” 4 月 23, 13:22
obaby on 多读书读好书: “想催眠，看数学” 4 月 23, 13:19
obaby on Windows11 Photos无法打开jpg图片: “ps 最新的吗?新版的应该是可以识别的。” 4 月 23, 13:19
皇家元林 on Windows11 Photos无法打开jpg图片: “我昨晚在网上下个图片 webp 格式，结…” 4 月 23, 11:30
皇家元林 on 多读书读好书: “读书是治疗睡眠障碍做好的方法” 4 月 23, 11:23