二维码的编码相关学习
概述
二维码(2-Dimensional Bar Code),是用某种特定的几何图形按一定规律在平面(二维方向上)分布的黑白相间的图形记录数据符号信息的。
二维条码有一维条码没有的定位点和容错机制。容错机制在即使没有辨识到全部的条码、或是说条码有污损时,也可以正确地还原条码上的信息。
二维条码的种类很多,不同的机构开发出的二维条码具有不同的结构以及编写、读取方法。
常见的二维码有:PDF417 码、QR 码(Quick Response Code)、汉信码(Han Xin Code)、颜色条码、quick mark code、数据矩阵码(data matrix code)。
二维条码通常有特定的定位标记(如 QR 码为三个大的定位点),通过定位标记使读码机正确辨识进行解读,所以二维条码不管是从何种方向读取都可以被辨识。
QR码是二维条码的一种,于1994年由日本 DENSO WAVE 公司发明。QR 即快速反应,因为发明者希望 QR 码可以让其内容快速被解码。
QR 码使用四种标准化编码模式(数字,字母数字,字节(二进制)和汉字)来存储数据。
基本结构
QR 码包含编码区域(encoding region)和功能图形( function patterns),其中功能图形包括:
位置探测图形(Position Detection Patterns)、位置探测图形分隔符、定位图形:用于对二维码的定位,对每个QR码来说,位置都是固定存在的,只是大小规格会有所差异;
校正图形:规格确定,校正图形的数量和位置也就确定了;
格式信息(Format Information):表示改二维码的纠错级别,分为L、M、Q、H;
版本信息:即二维码的规格,QR 码符号共有40种规格的矩阵(一般为黑白色),从21x21(版本1),到177x177(版本40),每一版本符号比前一版本每边增加 4 个像素。二维码一共有 40 个尺寸( Version),Version 1 是 21 x 21 的矩阵,Version 2 是 25 x 25 的矩阵,Version 3 是 29 x 29,计算公式即:(V - 1)*4 + 21(V是版本号) 最高 Version 40,(40-1)*4+21 = 177,所以最高是 177 x 177 的矩阵。
数据和纠错码字:实际保存的二维码信息,和纠错码字(用于修正二维码损坏带来的错误)。
数据存储
存储内容 | QR码最大资料容量(对于版本40) |
---|---|
数字 | 最多7,089字符 |
字母 | 最多4,296字符 |
二进制数(8 bit) | 最多2,953 字节 |
日文汉字/片假名] | 最多1,817字符(采用Shift JIS) |
中文汉字 | 最多984字符(采用UTF-8),最多1,800字符(采用BIG5/GB2312) |
容错能力
QR 码有容错能力,即使图形破损仍然可以读取,QR 码图形面积愈大,容错率愈高,所以一般折衷使用15%容错能力(M等级)。
错误修正容量 | |
---|---|
L等级 | 可修正7%的字码 |
M等级 | 可修正15%的字码 |
Q等级 | 可修正25%的字码 |
H等级 | 可修正30%的字码 |
编码模式
二维码共有8种 Mode,模式编码如下:
模式 | 指示符 |
---|---|
Extended Channel Interpretation (ECI) Mode 特殊字符集 | 0111 |
Numeric Mode,数字 | 0001 |
Alphanumeric Mode, 大写英文字母(A-Z)、数字和9个符号。注意这个模式不包括小写字母 | 0010 |
8-bit Byte Mode(8位字节), JIS X 0201,可以编码中文 | 0100 |
Kanji Mode 双字节编码,中文和日文 | 1000 |
Mixing modes 混合 | 1101 |
Structured Append Mode 混合 | 0011 |
FNC1 Mode 一些工业使用 | 0101(第一位置) 1001(第二位置) |
终止符(信息结尾) | 0000 |
掩膜模式
为避免出现不利于识别的图案,我们还需要对二维码进行掩膜 Mask 处理,掩膜模式(mask pattern)一共有 8 种。
- 以二维码的左上角为(0,0), i 代表横坐标,j 代表纵坐标,遍历二维码;
- 遇到符合条件的
(i,j)
将该坐标的颜色反转,如下图(编码和条件); - 注意,掩膜不应用于功能图形( Function Pattern)
生成步骤
数据分析:确定编码的字符类型,按相应的字符集转换成符号字符; 选择纠错等级,在规格一定的条件下,纠错等级越高其真实数据的容量越小。
数据编码:将数据字符转换为位流,每 8 位一个码字,整体构成一个数据的码字序列。其实知道这个数据的码字序列就知道了二维码的数据内容。
纠错编码:按需要将上面的码字序列分块,并根据纠错等级和分块的码字,产生纠错码字,并把纠错码字加入到数据码字序列后面,成为一个新的序列。
构造最终数据:在规格确定的条件下,将上面产生的序列按次序放入分块中。
按规定把数据分块,然后对每一块进行计算,得出相应的纠错码字区块,把纠错码字区块按顺序构成一个序列,添加到原先的数据码字序列后面。
如:D1, D12, D23, D35, D2, D13, D24, D36, … , D11, D22, D33, D45, D34, D46, E1, E23,E45, E67, E2, E24, E46, E68,…构造矩阵:将探测图形、分隔符、定位图形、校正图形和码字模块放入矩阵中。
掩膜:将掩膜图形用于符号的编码区域,使得二维码图形中的深色和浅色(黑色和白色)区域能够比率最优的分布。
格式和版本信息:将生成格式和版本信息放入相应区域内。版本7-40都包含了版本信息,没有版本信息的全为0。二维码上两个位置包含了版本信息,它们是冗余的。版本信息共18位,6X3的矩阵,其中6位时数据为,如版本号8,数据位的信息时 001000,后面的12位是纠错位。
生成示例
我们以“Hello, world! 123”, 容错等级 L,版本 1,000 掩膜为例,来一步一步完成 QR 码的生成:
分析字符
“Hello, world! 123” 中包含 17 个字符,136 位,其中有数字字母符号,所以匹配的编码模式为 字节模式 Byte Mode (0100):
Index | Char | Values (hex) | Bits |
---|---|---|---|
0 | H | 48 | 01001000 |
1 | e | 65 | 01100101 |
2 | l | 6C | 01101100 |
3 | l | 6C | 01101100 |
4 | o | 6F | 01101111 |
5 | , | 2C | 00101100 |
6 | 20 | 00100000 | |
7 | w | 77 | 01110111 |
8 | o | 6F | 01101111 |
9 | r | 72 | 01110010 |
10 | l | 6C | 01101100 |
11 | d | 64 | 01100100 |
12 | ! | 21 | 00100001 |
13 | 20 | 00100000 | |
14 | 1 | 31 | 00110001 |
15 | 2 | 32 | 00110010 |
16 | 3 | 33 | 00110011 |
匹配合适版本
Version | ECC L | ECC M | ECC Q | ECC H |
---|---|---|---|---|
1 | 19 | 16 | 13 | 9 |
2 | 34 | 28 | 22 | 16 |
3 | 55 | 44 | 34 | 26 |
4 | 80 | 64 | 48 | 36 |
5 | 108 | 86 | 62 | 46 |
6 | 136 | 108 | 76 | 60 |
7 | 156 | 124 | 88 | 66 |
8 | 194 | 154 | 110 | 86 |
9 | 232 | 182 | 132 | 100 |
… | … | … | … | … |
即版本 1 ,且纠错码等级为 L 时的容量为 19 是满足的,即选择版本 1。