多条告白如次剧本只需引入一次
最早的字符串源代码是美利坚合众国规范消息调换码,即ASCII码,他仅对10个数字,26个小写英笔墨母、26个小写英笔墨母及少许其余标记举行了源代码。ASCII码最多只能表白256个标记,每个标记占一个字节。跟着消息本领的兴盛,列国笔墨都须要举行源代码,所以展示了GBK、GB2312、UTF-8源代码等。个中GBk和GB2312是我国拟订的华文源代码规范,运用一个字节表白英笔墨母,2个字节表白中笔墨符。而UTF-8是我国通用的源代码,对全寰球一切国度用到的字符都举行了源代码。UTF-8沿用一个字节表白英笔墨符、3个字节表白华文。在Python3.X中。默许沿用的源代码方法为UTF-8,沿用这种源代码灵验地处置了华文乱码的题目。
在Python中,有两种常用的字符串典型,辨别是str和bytes。个中str表白Unicode字符(ASCII码大概其余)bytes表白二进制数据(囊括源代码的文本)。这两种典型的字符串不许拼接在一道运用。常常情景下,str在外存中以Unicode表白,一个字符对应诺干个字节。然而即使在搜集上传输,大概生存到磁盘上,就须要把str变换为字节典型,即bytes典型。
注:bytes典型的数据时带有b前缀的字符串(用单引号大概双引号表白)比方 b’xd2xb0’和’bmr’都是bytes典型的数据。
str典型和bytes典型之间不妨经过encode()和decode()本领举行变换,这两个本领是互逆的进程。
1.运用encode()本领源代码
encode()本领为str东西本领,用来将字符串变换为二进制数据(即bytes)也称为源代码,其语法方法如次:
str.encode(***;encoding="utf-8"]***;,errors="strict"])参数证明:str:表白要举行变换的字符串encoding="utf-8":可选参数,用来指定举行转码时沿用的字符源代码,默许为UTF-8,即使想运用简体华文,也不妨树立为gb2312。当惟有一个参数时,也可简略前方的encoding=,径直写源代码。errors="strict":可选参数,用来指定缺点处置办法,其可选址值strict(遇到不法字符就抛出特殊)ignore(忽视不法字符)、replace(用?替代不法字符)或 xmlcharrefreplace(运用xml的字符援用)等,默许为strict。注:在运用encode()本领时,不会窜改原字符串,即使须要窜改原字符串,须要对其举行从新赋值。
比方:
verse='野渡无人舟自横'byte=verse.encode('GBK')print('原字符串:',verse)print('变换后:',byte)2.运用decode()本领
decode()本领为bytes东西的本领,用来将二进制变换为字符串,行将运用encode()本领变换的截止再变换为字符串,也称为“解码”,语法方法如次:
bytes.decode(***;encoding="utf-8"]***;,errors="strict"])参数证明:bytes:表白要举行转为二进%e