基于Web的动态语料库构建.docVIP

下载本文档

1
0
约4.75千字
约 8页
2016-03-06 发布于北京
举报
版权申诉

基于Web的动态语料库构建.doc

1、本文档共8页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于Web的动态语料库构建.doc

基于Web的动态语料库构建　　政治新闻语料库不仅要具有时效性，而且要具有真实性和权威性。其时效性就是指在构建语料库时要及时采集那些实时新闻报道语料；真实性和权威性则要求采集的新闻语料一定要出自权威机构。　　随着现代信息技术的发展和普及，网络（Web）已成为目前容量最大、速度最快的信息传播平台。网络语料的时效性是传统媒介（如报纸、期刊等）无法比拟的，网络无疑应为政治新闻语料的主要采集地[1]。就政治新闻的权威性来讲，目前，大家比较认可的发布中国政治新闻英文报道的权威网站主要有新华网（E）、人民网（E）和中国日报网（C）等[2]。　　通过对这三家网站的分析比较，笔者发现：1）就新闻的英文报道本身的来源看，这三家网站经常互相引用，从而可只关注一个网站也能在一定程度上满足语料采集抽样的平衡性；2）目前只有中国日报网有一个专门报道中国政治新闻的频道（china/politics），且每篇新闻报道的HTML页面中还包含该篇报道的摘要、关键字等信息，而这些信息可为采集的语料提供更为丰富的标注内容。因此，笔者认为，对于中国政治新闻语料库的创建，可以基于中国日报网的中国政治新闻频道来采集语料。　　本文将从中国日报网政治新闻频道的结构分析、网页下载、语料汲取、语料XML结构化重组等方面，详细介绍如何基于该网站设计开发一个能够实现自动构建动态实时中国政治新闻语料库的计算机软件。　　1 中国日报政治新闻频道结构特征分析　　中国日报的中国政治新闻频道（以下简称政治新闻频道）采用“列项页（list page）”和“具体内容页（content page）”的二层结构模式进行新闻内容的导航。列项页中列出每篇新闻的标题，通过鼠标单击其中的一个标题项，即可进入包含该篇新闻详细报道的具体内容页。该结构模式也是目前其他新闻类频道最常用的模式之一。有些学者又把“列项页”称为“多记录页”，“具体内容页”称为“单记录页”[3]。　　政治新闻频道采用“先进先出”的队列原则，即该频道始终只提供200个“列项页”，除第1页的URL地址为“http：///china/governmentandpolicy.html”外，其他页面分别按照页码进行有规则编排，如第2页的URL（Uniform Resource Locator，指网页的链接地址）为“http：///china/governmentandpolicy_2.html”，第3页的URL为http：///china/governmentandpolicy_3.html。同理，第200页的URL为“http：///china/governmentandpolicy_200.html”。以此为规律，可设计软件实现自动生成每个“列项页”的URL，并循环下载所有政治新闻频道的“列项页”[1]。　　虽然不同网站“列项页”的内部结构不尽相同，但一般情况下，同一个网站特别是同一频道下的所有“列项页”的结构相同[4]。同样，政治新闻频道的200个“列项页”的内部结构框架也是相同的，如每个页面都只有12条列项（标题），每个列项的html标签（tag）也相同等。因此，可设计软件实现自动解析每个“列项页”的内容，从而批量获得各个“列项页”的所有政治新闻报道的标题以及与这些标题对应的“具体内容页”URL。　　同理，根据“具体内容页”的URL，可设计软件实现自动获得每个“具体内容页”。由于多数大型网站在上传文本数据（如新闻报道的内容）时一般都采用确定内容格式的上载工具，所以这些同一类数据内容在浏览器中展示时也会采用相同的HTML结构格式。通过观察分析，发现政治新闻频道的“具体内容页”也没有例外，它们同样采用相同的HTML结构格式来展示新闻内容。因此，可设计软件实现自动解析“具体内容页”的内容，并汲取到目标语料。　　通过以上的观察和分析，笔者认为通过设计开发软件来对政治新闻频道提供的语料进行自动汲取具有一定的可行性。下面是设计的通过软件实现自动汲取语料并构建中国政治新闻语料库的主要流程步骤：　　步骤1：下载“列项页”；　　步骤2：汲取“列项页”中的信息，创建“具体内容页”的URL列表；　　步骤3：开始循环下载URL列表中每个列表项对应的“具体内容页；　　步骤4：汲取“具体内容页”中的有用语料信息；　　步骤5：按照统一的XML结构重新组合这些语料信息；　　步骤6：把包含语料信息的XML文件保存到相应的位置；　　步骤7：判断URL列表是否循环完毕，若没有执行完毕就继续从步骤3开始，否则结束本次操作。　　2 网页下载　　网页下载是指软件根据给定的URL，自动从网络上把与该URL对应的网页内容以数据流的形式下载到本地计算机，然后以文本形式重新编码并输出，其机理为：1）软件通过网络向给定U