目录
前言
在计算机中,我们如何表示数字,英文字母(A ~ Z / a ~ z),中文,符号(, .?<>),等各种符号呢?
- -
- 人们最终想到了对这些字符进行编码,比如在ASCII编码中,用一个字节的大小(8个bit位,故可表示的数量是 2^8 = 256个字符,但只用了 128 个,即(0 - 127))
- 比如:65 就代表 英文字母A,48 代表 数字0。
- 除此之外,还有很多 非打印字符(换行符、制表符等)以及 控制字符(退格、响铃等)控制编码。
- 本文中你将了解到:
- 常见的字符编码格式
- 字节序标记: 大端方式(Big endian) / 小端方式(Little endian)
- 带BOM是什么意思?
常见的字符编码格式
ASCII
- 单字节编码,使用一个字节的大小来表示一个字符(1Byte = 8 bit,故可表示的数量为 2^8 = 256个)到目前为止共定义了128个字符(0 - 127)。
- 单单我们中文常用的字符就不止256个,因此ASCII在全世界范围肯定是不够用的,因此后来才出来了很多扩展的编码格式。
- 如今的其他编码格式基本都兼容ASCII。即可理解为在它身上进行扩展。
ANSI
- American National Standards Institute (美国国家标准学会),由这个标准学会制订的一种编码规则。
- 使用 1 - 4 个字节来代表一个字符。ANSI在不同语言系统上代表不同的编码。不同 ANSI 编码之间互不兼容。
- 在 简体中文win系统 中代表 GBK
- 在 日文win系统 中代表 Shift_JIS
GBK / GB-2312 / GB18030
- 这几个就和我们中国密切相关了。
- GB2312:对 ANSI 的简体中文扩展。GB2312共收录了七千个字符。
- GBK:(即 国G标B 扩K展)由于GB2312支持的汉字太少而且不支持繁体中文,所以GBK对GB2312进行了扩展,以支持繁体中文和更多的字符,GBK共支持大概22000个字符。
- GB18030:在GBK的基础上又增加了藏文、蒙文、维吾尔文等主要的少数民族文字。
Unicode
- 由于(ANSI)各国的编码不同造成交流传输不便,ISO 打算废除所有的地区性编码方案,建立一个全球性的编码方案,并把所有字符都编码进去,称之为 "Universal Multiple-Octet Coded Character Set",简称 UCS(ISO10646)。
- 同时又有 unicode.org 这个组织也制定了自己的全球性编码 unicode,自从unicode2.0开始,unicode采用了与UCS相同的字库和字码。
- 现在用的是UCS-2,即2个字节编码,而UCS-4是为了防止将来2个字节不够用才开发的。
- Unicode只是一个符号集,它只规定了符号的二进制代码,却没有规定这个二进制代码应该如何存储(使用的字节数 / 定长存储 / 变长存储)。怎样存储、传输这些编码,则是由UTF来实现。
UTF
- 在可以使用ASCII表示的字符时使用Unicode并不高效,因为Unicode比ASCII占用大一倍的空间,而对ASCII来说高字节对他毫无用处。为了解决这个问题,就出现了一些中间格式的字符集,他们被称为通用转换格式,即UTF(Unicode Transformation Format)。这其中就有如UTF-8这种变长编码。而让最常出现的字符编码尽量的短,即可使得总的存储和传输代价小很多,这也是哈夫曼压缩编码的思想。
- UTF-8、UTF-16、UTF-32 都是 Unicode 的一种实现。目前使用最为广泛的就是UTF-8。这些看名字差别就是后面的 -8 / -16 / -32。意义就是处理单元的比特位数(即一次拿到 8 / 8 = 1 ; 16 / 8 = 2;32 / 8 = 4个字节进行处理)。
- UTF-8: 变长编码方式。也就是用这种编码出来不同字符的长度不一定相同。比如UTF-8表示ASCII中的字符需要1个字节,表示中文需要3个字节。
- UTF-16:变长编码方式。
- UTF-32:定长4字节编码。
字节序标记
处理单元为多个字节时(一次拿到多个字节进行处理),如果不分字节顺序的话,那么就会出现解读错误。比如我们一次要处理四个字节 12 34 56 78,这四个字节是表示 0x12 34 56 78 还是表示 0x78 56 34 12?不同的解释最终表示的值也不一样。因此就有了大端方式和小端方式之分。
大端方式(Big endian)
- 高位字节存在低位地址
- 低位字节存在高位地址
小端方式(Little endian)
- 高位字节存在高位地址
- 低位字节存在低位地址
- 显然 UTF-16 和 UTF-32 是需要区分大小端方式的,因为它们一次处理拿到的字节数不止一个。
- UTF-8 不需要区分大小端。
带BOM(签名)是什么意思?
- 在有些软件中(如VS2019),把带BOM翻译为带签名。
- 我们已经介绍了字节序的大端和小端方式,但怎么让计算机知道这段文本是大端还是小端方式呢?
- 这就需要在文件开头为BOM(Byte Order Mark)的字符来表明文件是 大端 还是 小端方式 来存取。
- 注意:BOM是Unicode标准建议的,因此 UTF-16 和 UTF-32 编码存储的文件需要带 BOM。而GB2312尽管是双字节,但是没有BOM这个概念的。因为他出生太早了,那时候还没有这个概念。GBK也是没有BOM的。
- UTF-8 不需要区分字节序,当然也就不需要 BOM。但可以用BOM来表明该文件的编码方式是UTF-8。但实际上非常不建议这样做,尽管 Unicode 标准允许在 UTF-8 中使用 BOM,但 UTF-8 带BOM,是Win基于兼容性考虑独创的格式,linux默认不兼容。
buy furosemide online cheapest lasix furosemide furpharm.com
Тут можно преобрести купить сейф огнестойкий огнестойкие сейфы
http://furpharm.com/# cheapest lasix
Kamagra Kam Pharm: cheapest Kamagra Kam Pharm – cheapest Kamagra Kam Pharm
Сервисный центр предлагает ремонт кофемашин wmf на дому качественый ремонт кофемашин wmf
https://furpharm.com/# furosemide furpharm.com
furpharm buy lasix fur pharm furpharm
buy rybelsus: rybpharm – buy rybelsus online usa
kampharm shop: kam pharm shop – cheapest Kamagra Kam Pharm
http://kampharm.shop/# buy kamagra oral jelly Kam Pharm
Тут можно преобрести оружейный сейф на заказ москва сейф для ружья купить
Buy gabapentin for humans buy Gabapentin GabaPharm gabapentin GabaPharm
kam pharm shop kamagra oral jelly kampharm.shop
bbw porn
https://gabapharm.com/# GabaPharm
https://rybpharm.com/# semaglutide
Тут можно преобрести сейфы оружейные купить оружейный сейф цена
Thank you great post. Hello Administ .Seo Paketi Skype: By_uMuT@KRaLBenim.Com -_- live:by_umut
Тут можно преобрести магазин оружейных сейфов купить оружейный сейф в москве
kam pharm shop: kamagra – kamagra oral jelly
Тут можно преобрести несгораемый сейф цена несгораемый сейф купить
ed pills ED pills non prescription ed pills
rybpharm rybelsus: buy rybelsus rybpharm – buy rybelsus online usa
erepharm.com: ere pharm – ere pharm
http://furpharm.com/# furosemide
Тут можно преобрести купить сейф огнестойкий купить сейф огнестойкий
https://erepharm.com/# best ed pill ere pharm
buy gabapentin india GabaPharm Gabapentin buy gabapentin online
buy rybelsus rybpharm canada buy rybelsus online usa
https://kampharm.shop/# kamagra oral jelly
buy rybelsus: buy rybelsus rybpharm – rybpharm cheap semaglutide
Тут можно преобрести оружейные сейфы купить оружейный сейф доставка
cheapest lasix: buy lasix fur pharm – buy furosemide online
GabaPharm Gabapentin: cheapest Gabapentin GabaPharm – cheapest Gabapentin GabaPharm
https://gabapharm.com/# gabapentin GabaPharm
https://gabapharm.com/# gabapentin
Great post thank you. Hello Administ . Seo Paketi Skype: By_uMuT@KRaLBenim.Com -_- live:by_umut
Admiring the commitment you put into your site and detailed information you present.
It’s awesome to come across a blog every once in a while that isn’t the same out of date
rehashed information. Excellent read! I’ve saved your
site and I’m adding your RSS feeds to my Google account.
buy rybelsus rybpharm rybpharm canada rybpharm rybelsus
Тут можно преобрести где купить сейф для ружья сейф для охотничьего ружья
Сервисный центр предлагает ремонт парогенератора maxtronic адреса качественый ремонт парогенератора maxtronic
cheapest Gabapentin GabaPharm GabaPharm Gabapentin gabapentin GabaPharm
Davet Turizm Gaziantep Umre Turları düzenlemektedir.
https://kampharm.shop/# Kam Pharm
http://erepharm.com/# ed pills
buy ed pills: best ed pill ere pharm – best ed pill ere pharm
https://erepharm.com/# ed pills
Сервисный центр предлагает качественый ремонт духовых шкафов vestel мастер по ремонту духового шкафа vestel
cheapest ed pills ere pharm cheapest ed pills ere pharm ed pills
Сервисный центр предлагает сервис ремонта парогенераторов lavor ремонт парогенератора lavor на дому