? ? ziplist和intset是redis的两种value格式。顾名思义,ziplist是压缩的list,intset是存放int的set。元素在里面都是被编成bytes。
? ? ? ? * |00pppppp| - 1 byte?
? ? ? ? * ?String value with length less than or equal to 63 bytes (6 bits).?
? ? ? ? * |01pppppp|qqqqqqqq| - 2 bytes?
? ? ? ? * ?String value with length less than or equal to 16383 bytes (14 bits).?
? ? ? ? * |10______|qqqqqqqq|rrrrrrrr|ssssssss|tttttttt| - 5 bytes?
? ? ? ? * ?String value with length greater than or equal to 16384 bytes.?
? ? ? ? * |1100____| - 1 byte?
? ? ? ? * ?Integer encoded as int16_t (2 bytes).?
? ? ? ? * |1101____| - 1 byte?
? ? ? ? * ?Integer encoded as int32_t (4 bytes).?
? ? ? ? * |1110____| - 1 byte?
? ? ? ? * ?Integer encoded as int64_t (8 bytes).?
?* |1100 0000|- 0 byte?
? ? ? ? * ? ? ?Integer 0.?
? ? ? ? * |1100 0001| - 1 byte?
? ? ? ? * ? ? ?+Integer encoded 1 bytes.(1~255)?
? ? ? ? * |1100 0010| - 2 byte?
? ? ? ? * ? ? ?+Integer encoded 2 bytes.?
? ? ? ? * |1100 0011| - 3 byte?
? ? ? ? * ? ? ?+Integer encoded 3 bytes.?
? ? ? ? * |1100 0100| - 4 byte?
? ? ? ? * ? ? ?+Integer encoded 4 bytes.?
? ? ? ? * |1100 0101| - 5 byte?
? ? ? ? * ? ? ?+Integer encoded 5 bytes.?
? ? ? ? * |1100 0110| - 6 byte?
? ? ? ? * ? ? ?+Integer encoded 6 bytes.?
? ? ? ? * |1100 0111| - 7 byte?
? ? ? ? * ? ? ?+Integer encoded 7 bytes.?
? ? ? ? * |1100 1000| - 8 byte?
? ? ? ? * ? ? ?+Integer encoded 8 bytes.?
? ? ? ? *?
? ? ? ? * |1110 0001| - 1 byte?
? ? ? ? * ? ? ?-Integer encoded 1 bytes.-(1-255)?
? ? ? ? * |1110 0010| - 2 byte?
? ? ? ? * ? ? ?-Integer encoded 2 bytes.?
? ? ? ? * |1110 0011| - 3 byte?
? ? ? ? * ? ? ?-Integer encoded 3 bytes.?
? ? ? ? * |1110 0100| - 4 byte?
? ? ? ? * ? ? ?-Integer encoded 4 bytes.?
? ? ? ? * |1110 0101| - 5 byte?
? ? ? ? * ? ? ?-Integer encoded 5 bytes.?
? ? ? ? * |1110 0110| - 6 byte?
? ? ? ? * ? ? ?-Integer encoded 6 bytes.?
? ? ? ? * |1110 0111| - 7 byte?
? ? ? ? * ? ? ?-Integer encoded 7 bytes.?
? ? ? ? * |1110 1000| - 8 byte?
? ? ? ? * ? ? ?-Integer encoded 8 bytes.?
|1100 ----| ,value>= 0,|1110 ----| value 0,所有的value都编成uint,encoding已经带符号位了。 例如 value{1} 编成 [|1100 0001| 0000 0001],value{-1} 编成 [|1110 0001| 0000 0001]. 这种编码方式一个字节都不会浪费。
对于uintset里的uint,则使用可变长编码,同样不需要使用head。可变长编码,一个int64的长度是1~10bytes。可变长编码的大概思路是一个byte只使用7bit,最后1bit用来代表是否编码结束,如果0,则结束,否则为1.这个小技巧在leveldb和Tokyo Cabinet都可以见到。(题外话,leveldb的思路和实现都值得一看,通过数据的版本号来解决读写的并发,精简的mvcc。此外,还像个单机版的hbase)。这个方案避免参差的int造成的浪费。当然,它可能也需要付出额外的字节。但在大部分情况下,对内存的利用应该比定长编码更优。当然,在性能上比intset,可能会有所损耗。对set的插入,删除,读取都需要查找,为了增加查找速度,int在里面是排序的,intet和uintset都是这样。但是intset的int编码长度固定,容易定位元素,2分查找是非常方便。而uintset的uint长度未知。在二分时不是针对uint的数目二分,而是针对set编码后的一个大byte array做2分。有2点可能造成性能损失:不是准确的二分和定位到一个byte时,要向前扫描找到uint的起始byte,虽然最多扫描不超过10byte。此外,要获取指定序号的uint,只能从起点向后或终点向前扫描(视乎序号更接近起点还是终点)。