一则Incorrect string value问题

注意:本文最后更新于 2094 天前,有关的内容可能已经发生变化,请参考使用。

今天被一个python读写mysql的编码问题折腾了好几个小时,一开始还以为是Python3的中文编码的历史遗留问题,但最后发现是MariaDB(即Mysql)的锅。

utf8mb.png

情况是这样的,有一批GBK编码的网页,用Python3的requests抓下数据后,主要写入代码如下:


    class Contract:
        conn = pymysql.connect(host='127.0.0.1', port=3306, user='zcks', passwd='zcks',db='zcks',charset='utf8')
        cur = conn.cursor()
    
    ...
    
        def muGain(self,q_id):
            sql="INSERT INTO `true` VALUES ('%s', '%s', '%s', '%s' )"%(q_id,q_question,q_answer,q_answerkey)
            try:
                self.cur.execute("SET NAMES 'utf8';")
                self.cur.execute(sql.encode('utf-8'))
                self.conn.commit()
                print("DB updated!")
            except:
                print(sql,'DB Error')
    ...

写入MariaDB时,抛出下列错误:

    Warning: Incorrect string value: '\xEF\xBC\xA1\xE3\x80\x81...' for column 'answer' at row 1

相应的数据库为utf8_unicode_ci编码,控制台字符参数:

    MariaDB [zcks]>  show variables like 'character%' ;
    +--------------------------+--------------------------------+
    | Variable_name            | Value                          |
    +--------------------------+--------------------------------+
    | character_set_client     | utf8                           |
    | character_set_connection | utf8                           |
    | character_set_database   | utf8                           |
    | character_set_filesystem | binary                         |
    | character_set_results    | utf8                           |
    | character_set_server     | utf8                        |
    | character_set_system     | utf8                           |
    | character_sets_dir       | D:\xampp\mysql\share\charsets\ |
    +--------------------------+--------------------------------+
    8 rows in set (0.00 sec)

尝试统一文件、字符串、数据库编码为utf-8,问题依旧。最后通过改为utf8mb4编码解决这个问题,即在my.ini中添加:

    collation-server=utf8mb4_unicode_ci
    character_set_server=utf8mb4

再将数据库,改为utf8mb4_unicode_ci,可爱的中文就可以正常入库了。


关于utf8mb4

MYSQL 5.5.3之前的版本中UTF8编码只支持1-3个字节,utf8mb4使得一个字符最多能有4字节,utf8mb4是utf8的超集。

理论上直接用uft8应该不会产生中文无法入库的问题,现在虽然问题解决了,但是这例只能用utf8mb4才不会乱码的问题我依旧不知道症结在哪,望大神能指教。


「倘若有所帮助,不妨酌情赞赏!」

Holmesian

感谢您的支持!

使用微信扫描二维码完成支付


相关文章

发表新评论
已有 6 条评论
  1. 同样问题解决方法不一样

    同样问题.比你还严重.后来 重启数据库..解决了..

    同样问题解决方法不一样 回复
    1. 同样问题解决方法不一样

      @同样问题解决方法不一样

      而且用的还是GBK字符集..导入大量文字依然没问题了..诶诶.....StackOverflow部分一本正经的utf8mb4说法.的确看起来是那么回事.其实根源还是数据库本身BUG 问题导致的.

      同样问题解决方法不一样 回复
    2. 同样问题解决方法不一样

      @同样问题解决方法不一样

      而且用的还是GBK字符集..导入大量文字依然没问题了..诶诶.....StackOverflow部分一本正经的utf8mb4说法.的确看起来是那么回事.其实根源还是数据库本身BUG 问题导致的.

      同样问题解决方法不一样 回复
  2. Bright

    Lz博客用什么搭的?很漂亮。

    Bright 回复
    1. Holmesian

      @Bright

      用的Typecho:

      https://holmesian.org/come-to-typecho

      Holmesian 回复
  3. 这是谁

    这是谁 评论一下

    这是谁 回复