基于标题和正文依存树的中文网页正文抽取方法
基于标题和正文依存树的中文网页正文抽取方法
王晓飞1
(1. 北京邮电大学 信息与通信工程模式识别实验室,北京 100876)
摘 要: 正文抽取是许多数据挖掘技术的基础,其目的是为了从数据密集充满噪声的Web页面中,抽取最有价值的核心信息。传统基于统计的正文抽取方法无法解决正文简短、正文评价较长和正文为表格的网页。针对这些问题,本文通过对网页标题和网页正文位置关系的研究,提出了一个网页正文抽取的新方法。该方法利用标题和正文的依存关系,结合网页的统计信息,构建标题和正文的依存树,进行最小依存距离的网页正文定位,实现网页正文的精确抽取。通过多个网站的实验结果,表明利用标题和正文的依存关系,不仅有效的解决了基于统计方法的不足,而且具有较高的正文抽取精确度。
关键词: 中文信息处理;正文抽取;标题抽取;依存距离;链接节点
中图分类号: TM 391 文献标志码: A 文章编号:
Content Extraction from Chinese Web Page Based onTitle and Content Dependency Tree
WANG Xiao-fei1
(1. Laboratory of PatternRecognition, Beijing University of Posts and Telecommunications, Beijing, 100876)
Abstract: Content extraction is thebasis of many other technologies about data mining, which aims to extract theworthiest key information from web pages filled with noise dates. Traditionalcontent extraction based on statistics cannot deal with short content documents,table text or documents with long comments. Thus, through the research of thepositionrelation between title and content, the paper present you with a newmethod to extract content of web pages. It constructs title and content dependencytree, localizes the content with the smallest dependency distance and realizesthe accurate extraction of web pages’ contents by the usage of the dependencyrelation between title and content and the statistical information of websites.A number of experiments of several websites prove that it can not only make upfor the deficiency of statistical method, but also has a better precision inextracting content.
Key words: Chinese informationprocessing; content extraction; dependency tree distance; title extraction
0 引言
近几年,移动互联网的飞速发展注定了移动搜索是未来的发展方向。相对传统搜索,用户希望检索结果更为精准,而移动搜索引擎如何为移动终端提供基础服务,其中关键的步骤之一就是对网页的正文信息的抽取。正确地抽取出网页正文内容是信息搜索、Web文档分类、数据挖掘、机器翻译和文本摘要等Web信息处理的基础[1]。
目前网页抽取主要有以下几种方法:传统的包装器(Wrapper)抽取方法[2],根据一定的信息模式,从特定的信息源抽取相关的内容,但这种方法手工操作多,效率低,而且依赖性较强,适应性差。基于网页布局[3]和基于网页视觉方法[4][5]的网页正文抽取方法对网页的风格、结构依赖很大,对于网页嵌套关系复杂的页面处理结果存在偏差。基于语义单元[6]或基于数据挖掘、机器学习的正文抽取方法[7]用到了分词、文本分类聚类等技术,虽然网页正文抽取正确率有所提高,但是解决方法过于复杂。
基于统计的正文抽取方法[8]实现简单,通用性好,但是抽取准确率有限,无法处理正文简短、正文评价较长和正文为表格的网页,因此适用性受到了很大的限制。众所周知,网页标题是对一个网页的高度概括,网页正文是对网页标题的详细描述,网页标题和网页正文总是同时出现在网页的正中央。本文提出的基于标题和正文依存树的中文网页正文抽取方法(Title and Content Dependency Tree,TCDT),利用了标题和正文的这种启发式规则,同时结合网页的统计信息,构建标题和正文的依存树,进行最小依存距离的网页正文定位,最终实现了网页正文的精确抽取。
1 方法概述本方法总体由五个部分构成:基于HTML内容块的网页解析、抽取网页标题、节点统计值的计算、依存树和寻找最大权值依存树节点。总体过程如图1所示。
图1 方法模块图
基于HTML内容块的网页解析:网页的正文总是位于一个或多个网页的内容块中,因此方法的第一步是利用网页DOM树,将网页根据HTML内容块解析。
抽取网页标题:通过对网页标题特征的研究,本文设计了多条件决策法抽取网页标题,获取网页标题位置信息。
节点统计值的计算:利用内容块节点里的链接文本和非链接文本,利用科学的公式计算节点的统计权值。
依存树;添加通过标题和节点位置信息修正DOM树节点的统计权值,将DOM树扩展为依存树。
寻找最大权值依存树节点:在依存树中寻找最大统计权值的节点,此节点为最终抽取正文节点。
2 各模块算法研究和设计2.1 基于HTML内容块的网页解析
传统基于DOM树的网页正文抽取,针对网页的所有HTML标签进行DOM树分解,造成待分析节点数量多,且无法保证表格正文页面的完整性。基于以往的研究,研究人员提出网页的正文总是位于一个或多个网页内容块之中,而<table>、<div>、<span>或<p>可以作为网页内容分块的重要标记。通过对25147个网页的调研分析后,认为此观点具有可靠性,因此本文提出可以根据网页内容分块标签进行网页的DOM树解析,形成为以<body>标签为根节点,内容块标签为中间节点或叶子节点的网页DOM树。这样不仅减少了待分析的网页节点数、同时最大可能的保留了正文内容的完整性。基于网页内容块标签DOM树分解示例图如图2所示。
图2 基于网页内容块标签DOM树示例图
2.2 网页标题抽取常见基于网页标签获取标题的方法认为:如果在<title></title>、<hn></hn>、<div></div>、<ul>、</ul>、<p></p>、<b></b>或<strong></strong>HTML标签中,假如不存在href、src或link出现或出现的链接是当前页面的链接,那么就将这个标签中的内容作为网页标题保留,其余的标签删除。但是由于网页编写的灵活性,网页中往往存在多个满足上述条件的结果。如何从多个结果中找到真实的标题成为研究的难点。本文提出的基于多条件决策的标题抽取方法认为网页标题的抽取不仅可以通过HTML标签,还可以通过正文标题和链接锚文本相似性以及自然语言的启发式规则。
2.2.1 锚文本和正文标题具有极大的相似性经过本文对门户、招标、博客、体育四大类型的网站研究,得出以下结论:上级页面链接锚文本和当前页面正文标题具有极大的相似性。因为海量信息的存在,迫使网站多以列表的方式把标题呈现于主页或二级页面上,标题承担了正文页面导读的全部重任。根据网页的结构特征,一般将网页划分为首页式、列表式和正文式。当要进入到网站的某一个正文页面,一般是通过首页式—正文式,首页式—列表式—正文式。这样使得链入到正文页面的上级页面包含的概括正文核心信息的链接锚文本和正文标题具有极大的相似性。
2.2.2 正文标题的启发式规则归纳正文标题属于自然语言,具有自然语言的启发式规则。本文通过对门户、招标、博客、体育四大类型网站的25147个网页研究,得出以下结论:网页标题为了能够最深刻的贴近正文的意图所在,字数以10~20个字为宜且结尾不包含标点符号。比如新浪游戏频道的正文标题,比较偏好于10~12个字,而腾讯游戏频道的正文标题则喜好16~20字。当分析网页的结构时,发现存在节点满足上述条件,我们可以认为它是一个候选标题。
2.2.3 基于多条件决策的网页正文标题抽取方法流程总结上述理论研究,本文设计如图3所示基于多条件决策的网页正文标题抽取方法:
图3 基于多条件决策的网页正文标题抽取流程
(1)首先进行基于网页标签信息的正文标题抽取,如果满足标签条件约束的标签只有一个,输出结果,否则将多个候选标题进行下一条件;
(2)对获取的候选标题列表,进行中文字符统计,如果满足字数和标点符号约束,保留此项,否则,删除,如果满足条件只有一个,则输出结果,否则进入下一条件;
(3)在网页爬取时,保留网站结构中进入当前页面的锚文本信息,让锚文本和候选标题进行字符相似度匹配,选取最大相似度项作为网页标题。
2.3 正文节点统计特性正文节点一般位于网页源文件的中部、以中文字符为主,非链接文字长、链接文字短,正文段落依次排序的特征。利用正文节点的统计特征,可以对网页的节点进行统计值计算,寻找统计特征最明显的节点,即是正文节点。
而然,传统基于统计节点的计算公式都没有考虑正文简短、正文评价较长的网页,例如D. C. Reis [9]提出了(<table>的中文字符数+标点符号数)/(全部中文字符数+全部标点符号数)和Song Mingqiu等[10]提出的节点统计公式WT=FC+0.1*NC/HC(FC为中文句号个数,HC为超链接文字个数,NC为非链接文字个数),都会将长的网页评价信息认作是网页正文。
本文在考虑节点的统计因素外,同时考虑正文和标题节点之间的依存关系,增加了节点距离标题节点的依存距离权值修正因子,用于提高真实正文节点的权值,降低网页评价信息的影响。改进后的统计公式如公式1:
表示节点总中文字符;
表示节点链接中文字符;(公式1)
表示标题节点包含的中文字符;
表示节点距离标题节点的依存距离权值修正因子;
2.4 依存树模型分析2.4.1 网页标题和正文依存关系研究通过对新浪、腾讯、网易、搜狐网站的新闻网页和各大招标网站的招标网页的研究,发现网页中的标题和正文总是遵从一些显而易见的规则:(1) 标题和正文总是一起出现在正文之中,且位于网页源代码的中部;(2)标题高度概括正文内容,正文是标题的进一步信息说明,正文不能脱离标题存在,标题也不能脱离正文存在;(3)标题总是先于正文出现,标题节点和正文节点距离最近。
根据人们在编写网页的标题和正文时,形成的这些启发式规则,可以得出依存距离权值修正因子遵循的规则:
(1)当标题节点未出现,正文节点出现的可能性极小;
(2)节点距离标题越远,是正文节点的可能性越小;
(3)在标题节点之前出现的节点将比在标题节点之后出现的节点是正文节点的可能性更小;
(4)当标题节点出现,正文节点紧接标题节点出现的可能性较大;
(5)当长度为0时,即在标题和正文在同一节点中,权值因子取到最大值1。此时节点统计权值计算时要除去标题中文字符数。
根据上述规则,通过数学建模和实验模拟,最终设定如下分段函数:
(公式2)
表示节点距离标题节点的依存距离,负值表示节点在标题节点之前出现,正值表示节点在标题节点之后出现。
2.4.2 DOM树扩展为依存树关键步骤DOM树扩展为依存树的关键是寻找节点和标题节点的依存距离。经过研究分析后,发现网页标题和正文节点位置关系往往满足如图4所示的各种情况。对于情况4和情况5,说明正文节点被分成多个段落节点,需要根据正文节点具有正文段落依次排序的特征,进行正文节点聚类合并。聚类合并规则设定:对统计权值节点位于同一深度的临近左右节点进行权值数量级分析,如果最大统计权值节点和相邻节点的权值处于相同数量级,且属于同一类型标签,则进行聚类合并,否则完成当前合并。
图4 标题和正文节点的位置关系
根据网页制作者在制作网页时,大多会按照独立的网页内容块进行逐个编写,这样的观察,采用深度优先遍历方法模拟网页制造者的思维逻辑。因此节点距离标题节点的长度路径=节点深度遍历位置-标题节点深度遍历位置。在获取到节点和标题节点的依存距离信息后,就可以对节点进行统计权值修正,将基于内容标签的DOM树扩展为依存树,从依存树中获取权值最大的节点即为正文节点,如图5所示。
图5 部分依存树枝干示意图
3 实验结果分析通过网络爬虫从门户、招标、博客和体育常见的实用型中文网站中选取六个站点,每个站点下载1000个网页,总数达6000个网页作进行正文抽取测试。测试网页样本中包含一定数量的正文较短、噪声文本过长、正文为表格结构的网页。实验中,我们采用精确度P= T1/T0为了评价标准,设抽取正确的正文网页总数为T1,选取测试网页总数为T0,结果如表1。
表1 测试结果
网页来源
测试数量
正确的数量
错误的数量
P
中国政府采购网
1000
951
49
0.951
中央政府采购网
1000
942
58
0.942
新浪新闻
1000
983
17
0.983
腾讯新闻
1000
976
24
0.976
网易博客
1000
984
16
0.984
搜狐体育
1000
965
35
0.965
从实验结果上看,本文提出的TCDT正文抽取方法,在针对不同网页结构和类型的情况下,仍然能够保持很高的抽取精确度,平均抽取精确度可达到96.7%。同时,为了验证本方法能够弥补传统基于统计方法的抽取缺陷,我们利用传统统计方法测试相同的网页样本源,获得实验结果对比图,如图6。
从图6上可以看出,传统基于统计的方法对内容比较多的新闻类网站抽取精度较高,但是针对有表格、内容简短、有评价的采购网和博客不太实用。而TCDT方法相对传统统计方法提高了14.3%的抽取精度,有效的弥补了传统统计方法的缺陷。分析TCDT方法抽取错误的网页,错误主要有以下原因造成:网页制作者将噪声内容和正文内容混合在一个内容标签中编写,造成正文抽取结果中掺杂噪声;网页正文内容段落分散,位于网页的多个内容块位置,不具有连续性特点。
图6 TCDT方法和统计方法测试结果对比图
结束语
网页的正文抽取在搜索引擎、网页的分类、聚类过程中,都有很大的用处。本文提出的TCDT的抽取方法,考虑到网页标题对网页正文抽取的贡献,利用标题节点和当前节点的依存距离进行统计权值修正,选取权值最大的依存树节点为正文节点。通过实验,证明实用性强,实现简单,不依赖网页类型结构,可以解决了正文简短、正文评价较长,正文为表格等网页,且正文精确度达到96.7%。但是随着网页展现形式的复杂化和多样化,如何有效的解决多类型,结构更丰富的网页正文,还需要进一步的研究。
参考文献:
[1]Eikvil L. Information Extraction from World Wide Web——ASurvey[R]. Blindern, Norway: Norwegian Computing Center, Tech. Rep: 945, 1999.
[2]K U SHM ERI CK N.Wrapper induction for information extraction [D].Seattle:Universityof Washington,1997.
[3]Lei Fu,Yao Meng,Yingju Xia.Web Content Extraction based onWebpage Layout Analysis.Information Technology and Computer Science (ITCS),2010 Second International Conference on. 2010, Page(s): 40- 43
[4]Cai Deng, Yu Shipeng, Wen Jirong, et al. VIPS: A Vision Basedon Page Segmentation Algorithm[R]. [S. l.]: Microsoft Co., Tech. Rep.:MSR-TR-2003-79, 2003.
[5]Wang Jingqi, Chen Qingcai, Wang Xiaolong, et al. BasicSemantic Units Based Web Page Content Extraction[C]//Proc. of SMC’08.Singapore: IEEE Press, 2008.
[6]Uzun, E. Web content extraction by using decision treelearning[C].Signal Processing and Communications Applications Conference (SIU),2012 20th.2012:1-4
[7]Pan Donghua, Qiu Shaogang, Yin Dawei. Web Page Content ExtractionMethod Based on Link Density and Statistic[C]//Proc.of WiCOM’08.Dalian, China: IEEE Press, 2008.
[8]D. C. Reis, P. B.Golgher.Automatic web news extraction using tree edit distance[C]. ProceedingWWW 04 Proceedings of the 13th international conference on World Wide Web.2004:Pages 502 – 511
[9]Mingqiu Song, Xintao Wu. Content Extraction from Web Pages Based onChinese Punctuation Number. 2007 International Symposium on Information System& Management, July 26-28, 2007, Shanghai, China,P5573-557.
[10]LinZiyi,ShenBeijun. Automatic Web News Extraction Using BlockingTag[C]. Machine Vision, 2009. ICMV '09. Second International Conference onDigital Object Identifier: 10.1109/ICMV.2009.17 Publication Year: 2009, Page(s):