Hi:欢迎来到中国论文网     

所有论文科目分类

中国论文网 > 免费论文 > 计算机论文 > 互联网技术 >

基于可扩展的网页关键信息抽取研究

作者:2017-02-18 10:47阅读:文章来源:未知
    1 引言
  网页的关键信息是网页的最基本的信息,它体现了该网页和其他网页的差别。常见的关键信息有正文、作者、来源、发布时间等。在网络舆情监控、网络情报分析、搜索引擎等重大网络应用中,这些关键信息都是后期分析挖掘必不可少的基础数据。需要利用网络信息抽取技术从网页中抽取出这些关键信息。从某种角度上讲,关键信息的抽取质量直接决定了网络应用服务的效果。因此,网页的关键信息抽取研究具有重大的应用价值。
  随着网页规模呈指数级增长,在网络应用中,模板无关的全自动信息抽取算法和基于模板的信息抽取算法以其特有的优势成为信息抽取环节的主流算法。该算法通常针对特定需求,利用一些经验规则处理特定领域或特定格式的网页。因为抽取过程无需人工干预,所以此类算法越来越多地应用于实际网络环境中。基于模板的信息抽取算法充分利用了动态网页的规律:网页是由同一个模板生成的,属于模板的符号不会变化,变化的只是模板中填充的数据。因此,该算法在对动态网页进行抽取时能够取得较高的精度。
  但是,这两类抽取算法也存在着其固有的缺陷。模板无关的全自动抽取算法通常基于过强的假设。在处理多样性日益显著的网页时,常常因为某些网页不符合假设,而导致出现抽取精度不能满足需求的情况;并且由于使用过多规则,导致抽取效率低的情况。使用基于模板的信息抽取算法进行抽取时,需先针对某类网页学习出模板,后人工标注。面对日益增多的数据源,会导致网络应用的运维代价过大;同时日益复杂的网页使得模板的准确性下降,从而导致抽取精度下降。
  针对上述模板无关的全自动信息抽取算法和基于模板的信息抽取算法的缺陷,本文进行了深入研究。本文的贡献主要有以下两点。首先,提出了一种可扩展的网页关键信息抽取框架。该框架通过输入训练网页或其他算法的抽取结果,生成关键信息模板集。再通过模板的正交过滤算法,生成候选的关键信息模板。最后通过模板的特征过滤算法,生成最终的关键信息模板。利用该模板可快速、准确地从同类型网页中抽取关键信息。该框架很好地融合了模板无关的全自动信息抽取算法和基于模板的信息抽取算法,使得两类算法能够充分发挥各自的优点,并在缺点方面互相弥补。实验结果表明,该框架能够在抽取精度、抽取效率方面有本质上的提高。此外,该框架具有很好的可扩展性,框架中的一些关键环节可根据需求进行替换。其次,本文提出了模板的正交过滤算法,该算法将训练网页或其他算法的抽取结果分成若干份,生成若干个模板,再通过模板的正交过滤算法,过滤掉模板中的噪音部分,得到候选模板。将该算法引入基于模板的抽取算法中,能够从本质上提高生成的模板的准确性,最后的实验结果也充分验证了这一结论。
  2 相关工作
  网页信息抽取是一种针对网络数据源和网页进行深度处理和加工的过程。由于网页的复杂性和多样性,使得网页信息抽取算法也越来越多。常见的网页信息抽取算法主要可分为4类:包装器语言、包装器归纳、基于模板的信息抽取和模板无关的全自动信息抽取。由于包装器语言和包装器归纳都需要过多的人工干预,所以在实际的工程应用中,基于模板的信息抽取算法和模板无关的全自动信息抽取算法以其较强的实用性占据了主流的位置。基于模板的信息抽取通常基于这样的假设:待抽取的网页是由同一个模板生成的,属于模板的符号不会变化,变化的只是模板中填充的数据。符合这种生成模型的网页都可以利用网页模板分析方法来抽取。互联网上大量存在的动态网页是由机器生成的(例如论坛)网页。基于模板的信息抽取的工作流程是:
  1)利用多个同类型网页中具有共性的不变的部分生成一个模板;
  2)根据模板对同类型网页进行抽取。因为此类算法过滤了网页中的大量模板,只留下了数据,同时自动还原出了数据的结构,使得用户在付出较小人工代价的同时,能够获得较为准确的关键信息。因此此类算法一直都是网络应用中的主流算法。但是该类算法具有这样的缺陷:首先需要针对同类型的网页生成一个模板。模板的准确性直接决定了后续信息抽取的精确度。随着网页复杂性以及同一类型网页的差异性的增大,生成的模板准确性随之降低。模板无关的全自动信息抽取算法进一步提高了信息抽取的自动化程度。此类算法通常利用一些经验规则处理特定领域或特定格式的网页,例如,经典的全自动信息抽取算法MDR。该算法的缺陷在于通常基于过强的假设。以网页正文抽取为例。网页的正文往往是各大网络应用都需要的关键信息,有不少针对正文抽取的模板无关的全自动抽取算法。CoreEx是通过计算DOM 树中的链接文本比来确定正文所在的范围。CETR是通过标签的密度来确定正文所在的范围。CETD结合了二者优点。这些算法自动化程度高,通用性强,但是效率较低,且假设过强,精确度不如基于模板的算法。VIPS是一种通用性较强的算法,但是它需要渲染网页。因此这种方法的效率较低。
  在以往的文献中,较少看到将模板无关的全自动信息抽取算法和基于模板的信息抽取算法结合使用的相关研究。在本文提出的框架中,巧妙地将这两种算法有机地结合起来,使得二者能够取长补短,从本质上提高信息抽取的质量。
 

最近相关

最新更新

热门推荐

[美术摄影]浅谈设计美
艺术设计是一种审美性的设计,是艺术与技术相结合服务于现实生活的手段,实用性与审美性是其重要的两个特征。设计美学...[全文]
[音乐舞蹈]谈武术与舞蹈共同发展之路
自古以来就有舞蹈与武术同源近根的说法,但是至今为止,由于关于武术与舞蹈起源的问题一直缺乏可以证实的材料,众多学者也...[全文]
[近现代史]十八届六中全会公报在我市广大党员干部中引起强烈响应
10 月24 日至27 日,党的十八届六中全会在北京举行,全会审议通过《关于新形势下党内政治生活的若干准则》(以下简称《准...[全文]
[文学理论]浅析民间美术造型元素的现代审美
我国民间美术的发展历程已经延续了数千年之久,民间美术属于民间传统文化的重要构成部分之一,并备受社会各界的广泛支...[全文]
[文学理论]浅析普通高校公共艺术教育的课程体系研究
一、引言 公共艺术课程是为培养社会主义现代化建设所需要的高素质人才而设立的限定性选修课程,对于提高审美素养、培...[全文]
[文学理论]浅析应用型人才培养模式下的文学理论类课程教改探索
近年来,以二、三本院校为主的应用型本科教育普遍重视实践教学,强化应用型人才培养,将实践教学作为培养学生实践能力...[全文]
[文学理论]浅析散文翻译中的美学问题
散文的定义可从广义和狭义两方面来说,广义上讲,散文是一种与诗歌相对的文学体裁 ;从狭义上来说,是一种与诗歌、小说...[全文]
[文学理论]浅析色彩心理应用对品牌建设的重要性
0 前言 对于 CI 设计,有些人还不熟悉,事实上CI对企业品牌的塑造起到积极的推动作用。CI作为企业形象战略,有其不可低估...[全文]
[文学理论]浅析色彩艺术的心理效应研究
色彩在艺术家的手中,不仅是单纯的描绘与填充工具,而是表达艺术家内心世界的重要表现形式。这种心理的表达描述着人们...[全文]
[文学理论]边缘文化身份下的杜拉斯自传体小说研究
摘要 作为法国最具有争议的女作家玛格丽特杜拉斯,无法归类是杜拉斯最为明亮的一个标签,这一标签闪现出了杜拉斯的边...[全文]
[文学理论]浅析少数民族宗教艺术的社会美育系统
一、 少数民族宗教艺术的美学表现 (一) 少数民族宗教建筑的美学形式少数民族宗教建筑艺术的美学表现指宗教建筑的形体视...[全文]
[文学理论]浅析社会转型期传统民间美术的现代变迁
在我国恢弘、悠久的民族文化中,民间美术以其多姿多彩、种类繁多而占有重要的位置,是一切美术形式的源泉。中国民间美...[全文]

热门标签