一个中文究竟几个字节?
编码不同,都包含多少字?
编码面积
- ASCII: 英文+数字+标点(128个)
- GB2312: 6763个汉字,715个符号(拉丁字母、希腊字母、日文平假名及片假名字母、俄语西里尔字母);
- GBK:21003汉字(简体,繁体字),883个符号
- GB18030:70217个汉字,剩余是:少数民族文字+CJK中日韩
- BIG5:台湾编码
- Unicode:包含全世界文字的编码
- UTF-8,UTF-16,UTF-32 是存储方式和读取方式(传输方式)
编码范围:
- GB2312:编码范围:A1A1-FEFE,其中汉字编码范围:B0A1-F7FE
- GBK:8140-FEFE,汉字编码范围:B0A1-F7FE,8140-A0FE,AA40-FEA0
- GB18030:4E00-9FA5,3400-4DBF,汉字编码范围\x81 - \xFE, \x40 - \xFE(不包括0x7F)
- Unicode:0000-FFFF,汉字编码范围:4E00 - 9FA5
存储长度(方式):
- 占1个字节的编码是ISO-8859-1
- 占2个字节的编码是GB2312、GBK、GB18030、UTF-16BE、UTF-16LE
- 占3个字节的编码是UTF-8
- 占4个字节的编码是UTF-16
备注 : unicode系列(1-4字节):英文及标点1个字节,中文最少2个字节,常用的是GBK和UTF-8