sql反模式分析二

2012-08-14

sql反模式分析2第八章多列属性目标：存储多属性为一个bug设置多个标签反模式：创建多个列，为bugs创建tag1，t

sql反模式分析2
第八章多列属性
目标：存储多值属性为一个bug设置多个标签
反模式：创建多个列，为bugs创建tag1，tag2，tag3几个列保存标签。标签必须放于其中一个。
1.查询数据，比如搜索这三列，可以使用in语句
2.添加和删除 update bugs set tag1=nullif(tag1,'perfor'),tag2=nullif(tag2,'perfor'),tag3=nullif(tag3,'perfor')这个能把值更新到其中为空的那一列，如果都不为空，则不作更新。 3.确保唯一性。无法确保三列的值不一样。
4.处理不断增长的值集。三列可能不够用，如果在不断的增加列，性能开销将越来越大，而且sql查询更新将越来越复杂。
解决方案：创建从属表
将具有同样意义的值存在同一列中。
第九章：元数据分类案例：为一个客户表增加每年的收入情况，每年的收入情况都存在单独的列中，导致每一年就需要新增一个列存储该年的收入。
目标：支持可扩展性
反模式：克隆表与克隆列
1.不断产生的新表按照年份对bug表进行拆分，拆成bugs_2008,bugs_2009等多张表，然后按照需要需要修改对应的sql。
2.管理数据完整性如果有数据被误写到其他表中，则可能导致统计的一年的bugs数之类的数据不准确。没有任何办法自动对数据和相关表名做限制。但可以在每张表创建的时候使用check的约束。
3.同步数据如果发现某条记录原来是在2009这个表中，但时间弄错了，需要修改为2008的，这样订正数据就比较麻烦。需要好几条sql。
4.确保唯一性。如果需要做数据迁移，则需要保证记录的主键id值不会与目标表的主键记录冲突。而且对于那些只支持单表ID唯一的数据库产品，实现这样的功能还需要定义一张额外的表存储产品主键的值。
5.跨表查询如果需要查询所有的bugs数,则需要把每个表用union进行查询.
6.同步元数据.如果值在某个表增加一列,其他表没有增加,则联合查询不用使用*,需要列出所有列名.
7.管理引用完整性. 其他表就不能引用bugs的外键了,因为有多个bugs表.
8.标识元数据分裂列如果有其他表保护bugx_fiexd_2008,bugx_fixed_2009，则以后肯定需要增加bugx_fixed_2010.
解决方案：手工分割表的一个合理使用场景是归档数据。把没用的数据迁移到历史表中。
1.使用水平分区。MYSQL5.1所支持的分区特性，在createtable时执行pritition by hash(year(date)reported)) partitions 4.
2.使用垂直分区。根据列来对表进行拆分。将一些BLOB或者TEXT字段拆分到其他表存储。
3.解决元数据分裂列。创建关联表。
别让数据繁衍元数据。

物理数据库设计反模式
第10章：取整错误。
目标：使用小数取代整数，运算结果必须准确。
反模式：使用float类型
无限循环小数无法使用存储表示。
在SQL中使用FLOAT类型，放大查询结果差异比较大。无法使用比较操作，必须使用近似相等查询，但是阀值需要使用合适。
解决方案：oracle的FLOAT类型表示的是精确值，而BINARY_FLOAT则是非精确值。
使用NUMERIC类型。SQL的NUMERIC或者DECIMAL类型来代替FLOAT存储小数。 NUMERIC（9,2) 精度，刻度这样仍然无法存储无限精度的数据。
尽可能不要使用浮点数。
第11章：每日新花样需要给称呼列加入约束指定这些候选值
目标：限定列的有效值希望数据库能够拒绝无效值的输入
反模式：在列定义上指定可选值。很多数据库设计人员习惯在定义列的时候指定所有可选的有效数据。
create table bugs(status varchar(20) check(status in('new','in','fixed')).
mysql也支持用ENUM关键词来约束。但是mysql存储的是序数，而非字符串。
1.中间的是哪个无法获得status列中值的枚举列表，如果使用distinct来查询bugs表，但是刚开始没数据，查询的结果为空。如果使用INFORMATION_SHEMA系统视图，则还需要解决解决格式。
2.添加新口味。添加或者删除一个候选值。没有什么语法支持从ENUM或者check约束中添加或者删除一个值。只能用一个新的集合重新定义这一列。一些数据库只有在表为空表是才能改变某一列的数据。那么就需要先将数据导出，改变之后再导入。
3.老的口味永不消失。旧的值无法删除。
4.可一致性地下。check约束，域和UDT在各种数据库支持形式不同意。ENUM是mysql特有的特性。
解决方案：在数据中指定值，通过创建一张检查表bug_status，定义status列中出现的候选值，然后定义一个外键约束。
1.查询候选值集合。直接查询检查表。
2.更新检查表中的数据。插入更新操作很方便。
3.支持废弃数据。可以通过在bug_status表增加一列来表示是否已经弃用。
4.良好的可移植性。
在验证固定集合的候选值时使用元数据。在验证可变集合的候选值时使用数据。
第12章：幽灵文件只保存数据库文件，没有保存数据库中保存的文件路径对应的数据库外的文件。
目标：存储图片或其他多媒体大文件。
反模式：假设必须使用文件系统，可以使用BLOB字段存储文件,或者只在数据库存储文件路径。
1.文件不支持DELETE 垃圾回收问题。如果图片在数据库之外，删除某条记录之后无法自动将对应文件删除。
2.文件不支持事务隔离。数据库事务在提交之前，所有改变对外都不可见。但是数据库之外的文件改变则立刻体现到外界。
3.文件不支持回滚操作。数据库可以回滚，但是文件系统无法回滚。
4.文件不支持数据库备份工具。
5.文件不支持SQL的访问权限设置。
6.文件不是SQL数据类型。无法验证文件路径是否正确。
解决方案：在需要时使用BLOB类型。
MYSQL MEDIUMBLOB：16M oracle：LONGRAW 2GB
MYSQL有load_file()用来读取一个文件存储到BLOB列
存储在数据库之外的数据不由数据库管理。
第13章：乱用索引
目标：优化性能
反模式：无规划的使用索引
1.无索引
2.索引过多不需使用的索引无法获得任何好处，只有开销。
3.索引也无能为力常犯的错误是进行一个无法使用索引的查询
解决方案：所有不重复的值的记录和总计数条数之比越低，索引的效率就越低。
1.测量 ORACLE:TKProf mysql:慢查询日志
2.解释查询执行计划
3.挑选索引覆盖
4.测试
5.优化索引预载入：mysql使用 load index into cache语句。
6.重建：更新或者删除导致索引修改，需要定期对索引进行维护。mysql：analyze table or optimize table oracle:alter index rebuild
了解你的数据，了解你的查询请求，然后MENTOR你的索引。

查询反模式
第14章：对未知的恐惧。
目标：辨别悬空值 SQL支持一个特殊的空值，NULL。
增加记录时使用NULL代替那些还不确定的值。
一个给定的列如果没有合适的值，可以使用NULL代替。
当传入参数无效时，一个函数的返回值也可以是NULL。
在外联结查询中，NULL被用来当做未匹配的列的占位符。
反模式：将NULL作为普通的值，反之亦然。
1.在表达式中使用NULL。如果某个字段为NULL，表达式结果也是NULL。
2.搜索允许为空的列： select * from bugs where aggin_to=123 或者select * from bugs where not(assin_to=123)都不会返回这列为null的值。
而且查询null或者非null是不能用where assin_to=NULL或者assin_to<>NULL。使用is null
3.在查询参数中使用NULL 不能在查询参数assin_to=?传入NULL值
4.避免上述问题：使用默认值来代替NULL，按时查询计算时仍然需要制定<>默认值
解决方案：将NULL视为特殊值
1.在标量表达式中使用NULL 表达式中一个值为NULL，则结果就为NULL。
2.在布尔表达式中使用NULL。
3.检索NULL值。SQL-99中额外定义了一个比较断言 IS DISTINCT FROM
4.声明NOT NULL列。
5.动态默认值。使用COALESCE（）函数返回一个非NULL的参数。
使用NULL来表示任意类型的悬空值。
第15章：模棱两可的分组
目标：获取每组的最大值
反模式：引用非分组列
1.单值规则一个分组只能返回单一的值
2.我想要的查询如果分组后通过max获得的有两列的值是一样的，那么就无法返回哪条记录的其他列。不能使用max和min两个聚合函数定位到不同的记录。
解决方案：无歧义的使用列
1.只查询功能依赖的列；
2.使用关联子查询
3.使用衍生表
4.使用join
5.对额外的列使用聚合函数
6.连接同组所有值 mysql使用GROUP_CONCAT()函数将这一组中所有的值连在一起。
遵循单值规则，避免获得模棱两可的查询结果。
第16章：随机选择设计一个随机广告展示的查询
目标：获得样坏死记录
反模式：随机排序 select * from bugs order by rand() limit 1; 使用rand（）简单，但是无法利用索引，因为没有索引会基于随机函数返回的值，导致一次全表排序。
解决方案：没有具体的顺序。
1.从1到最大值之间随机选择 select b1.* from bugs as b1 join(select(ceil(rand() *(select max(bug_id) from bugs)) as rand_id) as b2 on(b1.bug_id=b2.bug_id);
2.选择下一个最大值。 select b1.* from bugs as b1 join(select(ceil(rand() *(select max(bug_id) from bugs)) as rand_id) as b2 where b1.bug_id>=b2.bug_id order by b1.bug_id limit 1;
3.获得所有键值，随机选择一个。程序选择一个，查询两次
4.使用偏移量选择随机行。
5.专有解决方案。SQL server 使用tablesample函数。 oracle使用sample函数。
有些查询是无法优化的，换种方式试试看。
第17章：可怜人的搜索引擎
目标：全文检索
反模式：模糊匹配断言 SQL提供了模式匹配断言来比较字符串，最常用的就是like语句。还有REGEXP正则表达式匹配。不过缺点当然就是性能问题了。
解决方案：使用正确的工具
1.数据库扩展 mysql能够对char,varchar,text定义一个全文索引,使用match进行全文查询.oracle使用context支持,然后通过contains()操作符搜索.sqlserver和postgreSQL也有对全文索引的支持.
2.第三方搜索引擎:Sphinx search lucene
你不必使用SQL来解决所有的问题.
第18章:意大利苗条查询
目标:减少sql查询数量
反模式:使用一部操作解决复杂问题
1.副作用查询多少bug已经修复，多少bug还打开。select p.product_id,count(f.bug_id) as count_fixed,count（o.bug_id) as count_open from bugsproduct p left outer join bugs f on(p.bug_id=f.bug_id and f.status='fixed') left outer join bugx o on(p.bug_id=o.bug_id and o.status='open') where p.product_id=1 group by p.product
这条sql查询出来count_fixed和count_open都是84，而实际上12个fixed，7个open，刚好84是12*7 这种查询是有问题。
解决方案：分而治之
1.分两条sql来查询。select p.product_id,count(f.bug_id) as count_fixe from bugsproduct p left outer join bugs f on(p.bug_id=f.bug_id and f.status='fixed') where p.product_id=1 group by p.product 。select p.product_id,count（o.bug_id) as count_open from bugsproduct p left outer join bugx o on(p.bug_id=o.bug_id and o.status='open') where p.product_id=1 group by p.product
2.寻找union标记根据单个结果集再使用union all合并。
尽管SQL支持用一行代码解决复杂的问题，但也别做不切实际的事情。
第19章：隐式的列联合查询如果两个表有列名一样的列，则会只取其中一个。
目标：减少输入可以使用*获取所有列
反模式：捷径会让你迷失方向
1.破坏代码重构，比如增加一列之后，原来insert没有指定列名的则现在会报错，少一列的值了。 select也一样，如果删除一列后，应用代码获取列的可能也会出错。
2.隐藏的开销获取一些没用的列，会增加网络开销和性能。
解决方案：明确列出列名
随便拿，但是拿了就必须吃掉。

应用程序开发反模式
第20章明文密码
目标：恢复和重置密码现在一般都是使用邮箱让用户恢复和重置密码
反模式：使用明文存储密码
1.存储密码 sql被劫持
2.验证密码
3.在email中发送密码，email有可能被劫持
解决方案：先哈希，后存储
mysql扩展支持SHA2（）函数返回256位的哈希串
哈希暴力破解，可以先加密后再进行哈希。
在SQL中隐藏密码，在程序中生成哈希串之后，在sql中直接使用哈希串。
重置密码，而非恢复密码。
如果密码对你可读，那么对于攻击者也是如此。
第21章：SQL注入
目标：编写SQL动态查询
反模式：将未经验证的输入作为代码执行
解决方案：不相信任何人
1.过滤输入内容。
2.参数化动态内容
3.给动态输入的值加引号
4.将用户与代码隔离
5.找个可靠的人来帮你审查代码
让用户输入内容，但永远别让用户输入代码。
第22章：伪键洁癖
目标：整理数据
反模式：填充角落
1.不按照顺序分配编号
2.为现有行重新编号
3.制造数据差异重新主键不是一个好习惯
解决方案：1.定义行号。2.使用GUID 太长，随机的，需要16字节
将伪键当做行的唯一性标识，但他们不是行号。
第23章：非礼勿视
目标：写更少的代码
反模式：无米之炊忽略数据库API的返回值，将程序代码跟SQL混在一起
1.没有诊断的诊断在多条sql顺序执行过程中，最好对结果进行诊断，保证错误能够快速定位。
2.字里行间花费大量时间调试生成sql字符串的代码
解决方案：优雅的从错误中恢复
1.保持节奏检查数据库API的返回状态和异常。
2.回溯你的脚步。sql语句记录，输出，调试。
发现并解决代码中的问题已经很苦难了，就别再盲目的干了。
第24章：外交豁免权
目标：最佳实践使用版本控制工具管理源代码，编写单元测试脚本；编写文档，代码注释。
反模式：将SQL视为二等公民。

热点排行

SQL Server

sql反模式分析二