二维码的编码相关学习

概述

二维码（2-Dimensional Bar Code），是用某种特定的几何图形按一定规律在平面（二维方向上）分布的黑白相间的图形记录数据符号信息的。

二维条码有一维条码没有的定位点和容错机制。容错机制在即使没有辨识到全部的条码、或是说条码有污损时，也可以正确地还原条码上的信息。

二维条码的种类很多，不同的机构开发出的二维条码具有不同的结构以及编写、读取方法。

常见的二维码有：PDF417 码、QR 码（Quick Response Code）、汉信码（Han Xin Code）、颜色条码、quick mark code、数据矩阵码（data matrix code）。

二维条码通常有特定的定位标记（如 QR 码为三个大的定位点），通过定位标记使读码机正确辨识进行解读，所以二维条码不管是从何种方向读取都可以被辨识。

QR码是二维条码的一种，于1994年由日本 DENSO WAVE 公司发明。QR 即快速反应，因为发明者希望 QR 码可以让其内容快速被解码。

QR 码使用四种标准化编码模式（数字，字母数字，字节（二进制）和汉字）来存储数据。

基本结构

QR 码包含编码区域（encoding region）和功能图形（ function patterns），其中功能图形包括：

位置探测图形（Position Detection Patterns）、位置探测图形分隔符、定位图形：用于对二维码的定位，对每个QR码来说，位置都是固定存在的，只是大小规格会有所差异；
校正图形：规格确定，校正图形的数量和位置也就确定了；
格式信息（Format Information）：表示改二维码的纠错级别，分为L、M、Q、H；
版本信息：即二维码的规格，QR 码符号共有40种规格的矩阵（一般为黑白色），从21x21（版本1），到177x177（版本40），每一版本符号比前一版本每边增加 4 个像素。二维码一共有 40 个尺寸（ Version），Version 1 是 21 x 21 的矩阵，Version 2 是 25 x 25 的矩阵，Version 3 是 29 x 29，计算公式即：(V - 1)*4 + 21（V是版本号）最高 Version 40，(40-1)*4+21 = 177，所以最高是 177 x 177 的矩阵。
数据和纠错码字：实际保存的二维码信息，和纠错码字（用于修正二维码损坏带来的错误）。

数据存储

存储内容	QR码最大资料容量（对于版本40）
数字	最多7,089字符
字母	最多4,296字符
二进制数（8 bit）	最多2,953 字节
日文汉字／片假名]	最多1,817字符（采用Shift JIS）
中文汉字	最多984字符（采用UTF-8），最多1,800字符（采用BIG5/GB2312）

容错能力

QR 码有容错能力，即使图形破损仍然可以读取，QR 码图形面积愈大，容错率愈高，所以一般折衷使用15%容错能力（M等级）。

错误修正容量
L等级	可修正7%的字码
M等级	可修正15%的字码
Q等级	可修正25%的字码
H等级	可修正30%的字码

编码模式

二维码共有8种 Mode，模式编码如下：

模式	指示符
Extended Channel Interpretation (ECI) Mode 特殊字符集	0111
Numeric Mode，数字	0001
Alphanumeric Mode，大写英文字母(A-Z)、数字和9个符号。注意这个模式不包括小写字母	0010
8-bit Byte Mode（8位字节）， JIS X 0201，可以编码中文	0100
Kanji Mode 双字节编码，中文和日文	1000
Mixing modes 混合	1101
Structured Append Mode 混合	0011
FNC1 Mode 一些工业使用	0101（第一位置） 1001（第二位置）
终止符（信息结尾）	0000

掩膜模式

为避免出现不利于识别的图案，我们还需要对二维码进行掩膜 Mask 处理，掩膜模式（mask pattern）一共有 8 种。

以二维码的左上角为(0,0), i 代表横坐标，j 代表纵坐标，遍历二维码；
遇到符合条件的(i,j)将该坐标的颜色反转，如下图（编码和条件）；
注意，掩膜不应用于功能图形（ Function Pattern）

生成步骤

数据分析：确定编码的字符类型，按相应的字符集转换成符号字符；选择纠错等级，在规格一定的条件下，纠错等级越高其真实数据的容量越小。
数据编码：将数据字符转换为位流，每 8 位一个码字，整体构成一个数据的码字序列。其实知道这个数据的码字序列就知道了二维码的数据内容。
纠错编码：按需要将上面的码字序列分块，并根据纠错等级和分块的码字，产生纠错码字，并把纠错码字加入到数据码字序列后面，成为一个新的序列。
构造最终数据：在规格确定的条件下，将上面产生的序列按次序放入分块中。

按规定把数据分块，然后对每一块进行计算，得出相应的纠错码字区块，把纠错码字区块按顺序构成一个序列，添加到原先的数据码字序列后面。
如：D1, D12, D23, D35, D2, D13, D24, D36, … , D11, D22, D33, D45, D34, D46, E1, E23,E45, E67, E2, E24, E46, E68，…
构造矩阵：将探测图形、分隔符、定位图形、校正图形和码字模块放入矩阵中。
掩膜：将掩膜图形用于符号的编码区域，使得二维码图形中的深色和浅色（黑色和白色）区域能够比率最优的分布。
格式和版本信息：将生成格式和版本信息放入相应区域内。版本7-40都包含了版本信息，没有版本信息的全为0。二维码上两个位置包含了版本信息，它们是冗余的。版本信息共18位，6X3的矩阵，其中6位时数据为，如版本号8，数据位的信息时 001000，后面的12位是纠错位。

生成示例

我们以“Hello, world! 123”，容错等级 L，版本 1，000 掩膜为例，来一步一步完成 QR 码的生成：

分析字符

“Hello, world! 123” 中包含 17 个字符，136 位，其中有数字字母符号，所以匹配的编码模式为 字节模式 Byte Mode （0100）：

Index	Char	Values (hex)	Bits
0	H	48	01001000
1	e	65	01100101
2	l	6C	01101100
3	l	6C	01101100
4	o	6F	01101111
5	,	2C	00101100
6		20	00100000
7	w	77	01110111
8	o	6F	01101111
9	r	72	01110010
10	l	6C	01101100
11	d	64	01100100
12	!	21	00100001
13		20	00100000
14	1	31	00110001
15	2	32	00110010
16	3	33	00110011

匹配合适版本

Version	ECC L	ECC M	ECC Q	ECC H
1	19	16	13	9
2	34	28	22	16
3	55	44	34	26
4	80	64	48	36
5	108	86	62	46
6	136	108	76	60
7	156	124	88	66
8	194	154	110	86
9	232	182	132	100
…	…	…	…	…

即版本 1 ，且纠错码等级为 L 时的容量为 19 是满足的，即选择版本 1。

Version	ECC L	ECC M	ECC Q	ECC H
1	19	16	13	9
2	34	28	22	16
3	55	44	34	26
4	80	64	48	36
5	108	86	62	46
6	136	108	76	60
7	156	124	88	66
8	194	154	110	86
9	232	182	132	100
…	…	…	…	…

Version	ECC L	ECC M	ECC Q	ECC H
1	19	16	13	9
2	34	28	22	16
3	55	44	34	26
4	80	64	48	36
5	108	86	62	46
6	136	108	76	60
7	156	124	88	66
8	194	154	110	86
9	232	182	132	100
…	…	…	…	…

Version	ECC L	ECC M	ECC Q	ECC H
1	19	16	13	9
2	34	28	22	16
3	55	44	34	26
4	80	64	48	36
5	108	86	62	46
6	136	108	76	60
7	156	124	88	66
8	194	154	110	86
9	232	182	132	100
…	…	…	…	…