- 1、本文档共25页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
北京大学校长基金论文集(2003年) 网络信息资源自动标引——面向中文网络文本信息的研究
PAGE
PAGE 21
网络信息资源自动标引
——面向中文网络文本信息的研究
TOC \o 1-4 \h \z \u 网络信息资源自动标引 3
一、引言 3
二、网络资源概况 4
1、 中国互联网络发展简况 4
2、 中国互联网络资源简况 6
1) WWW站点数 6
2) 全国网站的页面数以及字节数 6
3) 网页的内容分类 7
4) 网页的更新周期 8
3、 本文所要探讨的主要对象 8
1)、Web页面文本特点 8
2)、对中文网页文本的限定 9
3)、不考虑中文分词难题 9
三、相关概念 9
1、自动标引原理以及已有方法 9
1)、统计标引法 9
2)、概率标引法 10
3)、句法分析法 10
4)、语义分析法 11
5)、人工智能法 11
2、汉语自动标引技术 11
1)、词典标引法 11
2)、切分标记法 12
3)、语法分析标引法 12
4)、汉语文献标引专家系统 12
5)、单汉字标引法 13
四、自动标引实例研究 13
1、几个已见报道的自动标引实例 13
2、相关论文开发状况 15
五、基于链接的网络信息资源自动标引研究 17
1、网络链接的特征和类型 17
1)、网络链接的特征 17
2)、网络链接的类型 17
A、推荐链接 17
B、合作链接 17
C、相关链接 18
D、资源链接 18
E、通讯链接 18
F、广告链接 18
2、网络链接挖掘 18
1)、链接挖掘的定义 18
2)、链接挖掘处理步骤 19
(1)链接准备 19
(2)链接挖掘 19
(3)链接挖掘应注意的问题 20
3)后期处理 20
3、WLS链接数据库服务 21
1)WLS的必要条件 21
2)WLS模型 21
附注:
TOC \h \z \c 图表 图表 1 历次调查上网计算机总数(万台)(1997年10月~2003年7月) 5
图表 2 历次调查上网用户总数(万人)(1997年10月~2003年7月) 5
图表 3 历次调查WWW站点个数(2001年1月~2003年7月) 6
图表 4 全国网站的静动态网页数以及字节数(数据截至日期2002年12月31日) 7
图表 5 网页的格式分类情况(数据截至日期2002年12月31日) 7
图表 6 网页的更新周期(数据截至日期2002年12月31日) 8
图表 7 几个已见报道的自动标引实例 15
图表 8 相关论文开发状况一览表 17
图表 9 链接挖掘过程 18
图表 10 WLS概念模型 22
图表 11 (top)在链接挖掘服务器中生成URL的界面(bottom)显示结果的链接的挖掘界面 23
网络信息资源自动标引
——面向中文网络文本信息的研究
信息管理系 朱琳、杨梁彬
摘要
摘要:面对以指数级速度增长的海量网络信息资源和迅速增加的网民,如何有效的利用Internet信息资源成为一个急待解决的问题。本文正是针对这一点,面向中文网络文本信息资源,着重以网络中文信息资源的自动标引为切入点进行研究。
一、引言
Internet的信息资源对局域网信息资源的空间拓展是革命化的,它具有数量巨大,增长迅速,形式多样,变化频繁,分布广泛,结构复杂等特点。
目前全球有3.2亿人上网,并每天有超过4000台计算机入网,每年以15~20%的速度增长。到2000年,超过100万个网站,1亿台计算机和10亿个用户上网。在中国,从90年代中后期开始,Internet的发展更是日新月异。根据中国互联网络信息中心(CNNIC)公布的第十二次中国互联网络发展状况调查报告 第十二次中国互联网络发展状况调查报告(2003年7月):中国互联网络信息中心. 2003-09-12. /develst/(2003年7月),目前我国上网计算机数达2572万台,
第十二次中国互联网络发展状况调查报告(2003年7月):中国互联网络信息中心. 2003-09-12. /develst/
在传统的信息组织工作中,人们主要采用的是人工标引,这种标引方法由于人为控制因素的加入,所以标引深度比较高,也比较准确。但是完全人工的做法使得这种标引的成本很高,而且由于人的精力是有限的,所以标引的速度、数量、质量也只能勉强满足传统信息源的新增水平,此外,由
您可能关注的文档
- 椭圆的标准方程12课时.PPT
- 椭圆形画法同心圆法.PPT
- 蛙的受精卵分裂的过程.PPT
- 蛙类分布对未来气候变化的响应使用中国地区五种蛙类作为-PeerJ.DOC
- 蛙类全部音节正确音节辨识率.PPT
- 蛙泳的臂部动作.PPT
- 瓦房店轴承股份有限公司-瓦轴.DOC
- 瓦斯监控系统配置表.DOC
- 外部效应案例.PPT
- 外出就餐就寝-安全教育平台.PPT
- 2022年秋季高三开学摸底考化学试卷02(考试版).docx
- omp topic skillOMP主题沟通-列入技能.pdf
- 广西南宁市普高联盟2022-2023学年高一下册生物期末试卷(含答案).docx
- 广西贺州市昭平县2022-2023学年七年级下学期期末地理试题(含答案).pdf
- 湖北省黄冈市黄梅县2023-2024学年六年级下学期英语期末试卷(含答案).pdf
- 河北省邯郸市邯郸经济技术开发区2023-2024学年七年级下学期期末地理试卷(含答案).pdf
- 广西南宁市普高联盟2022-2023学年高一下册生物期末试卷(含答案).pdf
- 山东省济南市历下区2022-2023学年七年级下册地理期末试卷(含答案).pdf
- 云南省玉溪市重点中学2022-2023学年高一下册生物期末试卷(含答案).docx
- 江苏省南京市江宁区2022-2023学年七年级下册地理期末试卷(含答案).docx
文档评论(0)