商家名称 |
信用等级 |
购买信息 |
订购本书 |
|
|
基因表达谱数据挖掘方法研究 |
|
|
|
基因表达谱数据挖掘方法研究 |
|
基本信息·出版社:科学出版社
·页码:462 页
·出版日期:2009年03月
·ISBN:7030236807
·条形码:9787030236807
·版本:第1版
·装帧:平装
·开本:16
·正文语种:中文
内容简介 《基因表达谱数据挖掘方法研究》适合国内高校和科研院所生物和信息领域中从事生物信息学教学和研究的教师、高年级本科生、研究生和科技人员,对于其他与生物信息学研究有关及有志于从事这一领域研究的计算机科研人员也是必备的参考读物。基因表达谱数据挖掘可以帮助人们发现新的疾病亚型,提高复杂疾病诊断的正确率。因此,发展高效实用的基因表达谱数据处理方法具有十分重要的实际意义。《基因表达谱数据挖掘方法研究》首先介绍生物信息学中基因芯片和基因表达谱等一些基本概念,然后利用Re—lief、Fisher判别、Wilcoxon和Kruskal-Wallis秩和检验方法、信噪比方法、主成分分析方法、因子分析方法、独立分量分析方法、经典粗糙集和邻域粗糙集、人工神经网络和集成神经网络、小波包变换和离散余弦变换、遗传算法和遗传规划、流形学习、张量分析等方法,系统研究了基于基因表达谱的肿瘤亚型数据挖掘方法(包括特征提取与分类识别等)。设计多种基因表达谱分类识别算法,并结合SVM、NSC、FLDA、DLDA等多种分类器及集成分类器,进行大量的基因表达谱分类识别实验,以图和表的形式给出大量实验结果,同时对各种方法的性能进行比较。系统研究基于基因调控概率的肿瘤基因表达谱数据挖掘方法,结合Filter和Wrapper两种特征选择方法的优点,研究基于支持向量机和惩罚策略(SVPS)的肿瘤关键基因选择算法。设计基于标准遗传算法和多目标遗传算法的集成基因表达谱特征选择方法。
作者简介 黄德双,工学博士,中国科学技术大学博士生导师,中国科学院合肥智能机械研究所研究员,中国科学院研究生院教授,2000年度中国科学院
“百人计划”人选者。Transactions of the Institute of Measurement and Control(TIMC)国际杂志顾问编委,Advances in Artificial
Neural Systems(AANS)等国际杂志编委,IEEE高级会员。已发表SCl收录学术杂志论文110多篇,SCI他引500多次,出版专著三部,获第八届
全国优秀科技图书二等奖一项。曾主持国家自然科学基金项目5项,国家重点基础研究发展计划(973)项目子课题和国家高技术研究发展计划
(863)项目各1项。研究兴趣为模式识别、神经网络与生物信息学。
编辑推荐 《基因表达谱数据挖掘方法研究》的特点是绝大部分工作都是作者和作者的学生近几年的研究成果,且理论与方法相结合,循序渐进,图文并茂,通俗易懂。读者按照书中的方法步骤和附录中提供的程序代码容易进行仿真实验。
目录 前言
第1章 绪论
1.1 生物信息学简介
1.1.1 生物信息学概念
1.1.2 生物信息学的研究背景和意义
1.1.3 生物信息学的研究内容与方法
1.1.4 生物信息学的研究历史和现状
1.1.5 应用前景
1.2 基因组时代简介
1.2.1 基因组计划
1.2.2 基因的基本结构
1.3 基因表达谱数据挖掘的研究意义与研究现状
1.3.1 研究意义
1.3.2 研究现状
1.4 本章小结
参考文献
第2章 DNA微阵列技术与基因表达谱
2.1 基因芯片与DNA微阵列
2.1.1 基因芯片介绍
2.1.2 基因芯片的特点、分类和制作
2.1.3 基因芯片制备方法
2.1.4 DNA微阵列技术的应用和研究方向
2.2 基因表达谱
2.2.1 基因表达谱的获取与表示
2.2.2 基因表达谱的特点
2.2.3 基因表达谱的数学描述
2.2.4 常用的肿瘤基因表达谱数据集
2.3 基因表达谱数据分析
2.3.1 基因表达谱数据的预处理
2.3.2 基因表达谱数据分析的层次
2.3.3 差异基因筛选
2.3.4 基因解读与注释
2.3.5 基因表达调控
2.4 基因表达谱的研究方向
2.5 本章小结
参考文献
第3章 基因表达谱数据挖掘中的模式识别基础
3.1 模式识别的概念及其研究方向
3.2 特征提取与选择方法
3.2.1 特征提取中用到的统计量
3.2.2 基因表达谱的特征提取与选择
3.3 常用的基因表达谱聚类与分类算法
3.3.1 基因表达谱聚类和分类的目的
3.3.2 聚类与分类算法的划分及评估准则
3.3.3 基于类间距离的聚类算法
3.3.4 层次聚类
3.3.5 基于密度、网格和模型的聚类算法
3.3.6 K-均值法
3.3.7 仿射传播聚类
3.3.8 K-近邻分类方法及其改进方法
3.3.9 决策树
3.3.10 线性判别分析
3.3.11 基因表达谱可分性判据
3.4 分类器
3.4.1 贝叶斯分类器
3.4.2 人工神经网络
3.4.3 自组织映射
3.4.4 支持向量机
3.4.5 多分类器性能比较
3.5 本章小结
参考文献
第4章 基于因子分量分析的基因表达谱特征提取方法
4.1 基因表达谱特征提取方法简介
4.2 主分量分析
4.2.1 主分量分析的基本思想
4.2.2 主分量分析算法步骤
4.3 判决主分量分析
4.3.1 判决主分量分析的基本思想
4.3.2 判决主分量分析算法步骤
4.4 因子分析
4.4.1 因子分析的基本思想
4.4.2 因子分析算法的步骤
4.5 独立分量分析
4.5.1 独立分量分析的基本思想
4.5.2 独立分量分析算法的步骤
4.5.3 FastICA
4.6 因子分析、主分量分析和独立分量分析之间的关系
4.7 基于主分量分析、判决主分量分析和因子分析的肿瘤亚型分类方法
4.7.1 算法框架模型
4.7.2 信息基因选择
4.7.3 基于主分量分析的肿瘤亚型分类的实验结果与分析
4.7.4 基于判决主分量分析的肿瘤亚型分类的实验结果与分析
4.7.5 基于因子分析的肿瘤亚型分类的实验结果与分析
4.8 基于独立分量分析的肿瘤亚型分类方法
4.8.1 基因表达谱的IcA模型及其生物学意义
4.8.2 基于独立分量分析的基因表达谱提取与选择算法
4.8.3 实验结果与分析
4.9 基于独立分量分析的肿瘤亚型惩罚性分类方法
4.9.1 惩罚性回归模型
4.9.2 优化得分算法
4.9.3 惩罚性优化得分分类算法
4.9.4 特征基因的初选
4.9.5 实验结果与分析
4.1 0本章小结
参考文献
第5章 基于傅里叶与小波包变换的基因表达谱特征提取方法
5.1 基于离散余弦变换和傅里叶变换的基因表达谱特征提取方法
5.1.1 离散傅里叶变换和离散余弦变换
5.1.2 Relief算法
5.1.3 基因表达谱分类模型
5.1.4 实验结果与分析
5.2 基于小波包变换的基因表达谱特征提取与选择
5.2.1 小波包变换
5.2.2 肿瘤亚型分类方法
5.2.3 实验结果与分析
5.3 基因表达谱的特征提取与选择方法比较
5.4 本章小结
参考文献
第6章 信息基因的启发式搜索算法研究
6.1 信息基因选择问题
6.1.1 基于基因表达谱的肿瘤分类问题描述
6.1.2 肿瘤分类模型及评估
6.1.3 信息基因选择方法简介
6.1.4 信息基因选择策略
6.2 基于启发式搜索的基因表达谱数据挖掘算法
6.2.1 肿瘤信息基因的启发式宽度(HBSA)优先搜索算法
6.2.2 信息基因选择
6.2.3 HBSA算法实现
6.2.4 实验结果与分析
6.3 基于wilcoxon秩和检验的信息基因选择方法
6.3.1 算法的基本思想
6.3.2 算法的基本步骤
6.3.3 实验结果与分析
6.4 基于Kruskal-Wallis秩和检验的基因选择方法
6.4.1 算法的基本步骤
6.4.2 实验结果与分析
6.4.3 SRCT数据集中信息基因描述及肿瘤亚型相关基因推测
6.5 本章小结
参考文献
第7章 基于粗糙集的信息基因选择方法
7.1 基于粗糙集的肿瘤信息基因选择方法
7.1.1 粗糙集模型简介
7.1.2 粗糙集属性约简的一般步骤和算法实现
7.1.3 基于粗糙集的信息基因选择方法
7.1.4 实验结果与分析
7.2 基于邻域粗糙集的肿瘤信息基因选择方法
7.2.1 邻域粗糙集模型简介
7.2.2 邻域分类器
7.2.3 基于邻域粗糙集模型的肿瘤分类方法
7.2.4 实验结果与分析
7.3 基于邻域粗糙集的多类肿瘤亚型分类方法
7.3.1 多肿瘤亚型分类算法框架和模型
7.3.2 实验结果与分析
7.4 本章小结
参考文献
第8章 基于基因调控概率模型的基因表达谱数据挖掘方法
8.1 基因表达调控的生物学背景
8.2 基于概率统计的基因调控概率模型
8.3 基因调控概率计算
8.3.1 基于全概率公式的基因调控概率计算
8.3.2 基于最大似然估计的基因调控概率计算
……
第9章 基于神经网络和支持向量机的基因选择及肿瘤分类方法
第10章 基于集成分类器系统的基因表达谱数据挖掘方法研究
第11章 基于流形学习的基因表达谱特征提取方法
第12章 基于张量分析的高阶基因表达谱特征提取方法
附录 部分源代码
彩图
……
序言 生物信息学是一门包含生物学、计算机科学、数学和人工智能等学科的交叉科学,也是近年来发展非常迅速的研究领域,它试图使用计算和统计的方法来解决生物学中所涌现出来的海量数据分析的问题。随着基因微阵列技术的不断发展,大量基因表达谱数据的获取变得越来越容易,而且获得的数据也越来越准确。但面对日益庞大、复杂的基因表达谱数据,已有的相关数据分析和数据挖掘方法与技术已经不能满足实际的需要。近年来肿瘤基因表达谱技术的出现,为肿瘤学的研究提供了一种全新、系统的研究手段,并在肿瘤学的基础研究和临床应用等领域备受关注。通过基因表达谱对肺癌成功诊断的实例表明。利用基因表达谱对肿瘤进行诊断将会成为一种既快速又精确的临床诊断方法,这种肿瘤诊断方法的发展必将大大增强临床治疗肿瘤的有效性。基因表达谱数据挖掘可以帮助人们发现新的疾病亚型,提高复杂疾病诊断的正确率。因此,发展高效实用的基因表达谱数据处理方法具有十分重要的实际意义。本书着重研究基因表达谱的各种数据挖掘方法,主要是将很多智能计算的方法与技术应用到肿瘤分类中,全书包含了理论、方法、步骤、程序代码、实验结果与分析,以及多种方法的结果比较,同时以图形和表格的形式给出了大量的实验结果,很多方法具有通用性。本书大部分内容是作者和作者所在的实验室的最新研究成果,凝聚了作者所在实验室全体工作人员的心血和才智。与同类书相比,本书的特点是绝大部分工作都是作者和作者的学生近几年的研究成果,且理论与方法相结合,循序渐进,图文并茂,通俗易懂。读者按照书中的方法步骤和附录中提供的程序代码容易进行仿真实验。因此,本书特别适合生物信息学领域的高年级本科生、研究生以及科技工作者参考。
全书在编写过程中得到了智能计算实验室全体同志的大力协助,其中博士后王树林、张善文和郑春厚,博士王红强、刘昆宏和裴顺对书中的部分章节进行了编写。此外,李波、李雪玲、史明光、夏俊峰、尤著宏、徐春归等对全书的章节进行了校对,王树林和张善文对全书所涉及的主要程序代码进行了编写、调试、整理和归类。
在本书的编写过程中,也参考了国内外有关研究成果,在此对所涉及的专家和研究人员表示衷心的感谢。由于工作疏忽,书中所列出的参考文献可能不够全面,在此也对那些可能被遗漏的专家和研究人员一并表示衷心的感谢。科学出版社的莫结胜编辑为本书的出版付出了大量的心血,在此也一并表示感谢。此外,本书的出版得到了国家自然科学基金、国家重点基础研究发展计划(973)和国家高技术研究发展计划(863)项目的支持,在此也一并鸣谢!
文摘 插图:
第1章 绪论
生命是一个异常复杂的巨型系统。虽然科学家们已针对生命现象的本质做了大量的研究工作,但迄今为止人类仍然未解开生命的奥秘,甚至还
不能理解最简单生命的基本过程。近年来,由于基因组测序技术的快速发展,人类基因组和多种模式高等生物及模式微生物的全基因组测序工
作被逐一完成,在GenBank、EMBL和DDBJ等国际公共核苷酸数据库中的DNA序列数据变得越来越多。然而,与正在以指数方式增长的生物学数据
相比,人类相关知识的增长却十分缓慢。一方面是巨量的数据;另一方面是人们在生命、医学、药物等方面对新知识的渴求,这就构成了一个
极大的矛盾。人们正在目睹生物医学研究领域的一个巨大变革,即从传统的对单个基因、单个蛋白质的研究过渡到系统地对整个生物体的基因
组学、蛋白质组学、转录组学进行研究;而研究方法也从传统的观察和实验,过渡到结合计算机科学、人工智能、数学等学科的理论和方法来
进行分析。这个变革使得大量的计算机和数理科学工作者自然地转入到生命科学研究的领域,一门新兴的交叉学科——生物信息学
(bioinformatics)应运而生。