- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
·实验研究
蒙古文网站搜集方法的研究
吴丽萍 黄秋筱(中央民族大学信息工程学院,北京 100081)
摘 要:随着科技的进步,互联网已深入群众,我国少数民族如蒙古族等也借助互联网弘扬本民族文化,致力于实现民族语言文字信息数
字化处理。蒙古文网站数量快速增多,能够快速、全面、准确的获取蒙古文网站信息,对蒙古文信息处理发挥重要作用。为实现快速、全面、
准确的获取蒙古文网站信息,利用元搜索引擎获取包含蒙古文高频语素的网页URL,根据网页文字编码范围判断其是否属于蒙古文网站,再
利用各网站之间的链接获取更多的蒙古文网站。
关键词:蒙古文网站;元搜索;高频语素;广度优先法
1 蒙古文网站现状 他蒙古文编码的网页则无法搜索;在360搜索引擎中可搜索到
Internet的飞速发展给整个社会带来了一场意义深远的 蒙科立、unicode、赛音、布日古德、明安图等编码的蒙古文网
信息革命,我国的互联网技术也飞速发展,并在政治、经济、文 站。因此在多个搜索引擎中输入不同编码的蒙古文高频语素,
化中发挥重要作用。但是由于我们国家地域辽阔,民族众多,大 其返回结果互补,这样可避免遗漏所需要搜集的蒙古文网站。
部分民族拥有自己的语言文字,在互联网技术迅速发展的大环 获得返回的包含蒙古文高频语素的网页后,获取其URL并
境下,少数民族的语言文字信息数字化处理技术尚处于起步阶 对这些网页的URL进行一步步拆分,将其分为域名、子域名、
段。近年来我国少数民族的网站数量在迅速增多,网络资源日 子目录、页面URL,完成这些工作后将拆分后的URL子块以域名
益渐增,蒙古文网站也如雨后春笋迅速增多,但是目前到底有 为键,其他部分为值的字典形式存储在数据库中。例如在360
多少蒙古文网络资源,这些蒙古文网络资源为大家提供什么服 搜索中输入“ ”,获得一个网页链接http://ijilmuren.
务,哪些蒙古文网络资源是蒙古族群众关注的热点,这些人们 /blog/static/35654254200943163320156,接着
都还一无所知。欲回答这些问题,首要任务就是要知道有多少 此链接可拆分为/blog,ijilmuren.
个蒙古文网站。虽然现在已经有蒙古文网站大全,但这些大全 和163.com。当然这里拆分的时候需要注意部分顶
的网站都是通过人为手动搜索出来的,由于工作量大、效率低, 级域名并不能区别各个网站,如和这类
于是就不能够及时更新网站数量及信息,从而导致出现搜集的 域名,如果拆分后仍以“.com”为键值,那么就会漏掉部分蒙古
蒙古文网站数量不全,网站信息错误等问题。人工搜集蒙古文 文网站或者有些多余的非蒙古文网站保存到数据库中,导致结
网站的弊端百出,于是人们希望开发蒙古文搜索引擎。 果不准确。因此对于“.edu”、“.cn”、“.com”等这类域名,域
2008年1月3日,内蒙古首个蒙古文互联网搜索引擎正式上 名拆分的键值就不应该只保留顶级域名,而应保留其二级域名
线,这填补了蒙古文互联网一直没有搜索引擎的空白,但还存 或三级域名,如。
在许多缺陷,目前能搜集到的蒙古文网页数量少之又少。获得 ⑵判断获取的URL是否为蒙古文网页。在含有URL的数据库
的蒙古文网站数量太少,原始资源不利于搜索引擎的发展。同 中逐一提取已经拆分好的域名、子域名、子目录和页面的URL,获
时由于当前蒙古文编码不统一,对搜索引擎的技术要求变得更 取相应的页面内容,采用正则表达式的方法提取出页面文本并
高,短期内无法做到像中英文搜索引擎那样包罗万象。为解决 判断网页文字是否为蒙古文,若是蒙古文则保留并存储其对应
目前存在的这一系列问题并为开发更好的蒙古文搜索引擎做铺 的URL,若不是则放弃该URL。
垫,我们先致力于搜集到尽可能全的蒙古
文档评论(0)