- 1、本文档共4页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
企业元数据和分类词表的常问问题上个月,道琼斯公司在京成功举办了企业元数据和分类词表培训课程。来自科研机构、图书馆、著名计算机生产厂商、燃气集团和新闻媒体机构总计13位学员参加了为期两天的培训,来自新加坡的道琼斯分类词表专家陈佩君女士为同学们提供了从理论到实践的全面指导。在培训结束之后,同学们对参加此次培训课程做了如下评价:?“在单位里觉得分类词表是一个过时的东西,通过培训才发现分类词表的应用并不是仅仅局限于以往图书馆的文献管理,在企业及其他行业都有相当大的需求,应用前景相当宽广。”来自国内某大型图书馆的分类词表研究人员如是说。 “通过此次培训,让我对企业元数据和分类词表的整体理论有了深入理解,也了解了国内外企业的实际操作案例,得到了很多第三方知识管理软件和企业分类词表的信息源,对回到企业进一步开展工作有了清晰地认识。培训老师很专业,为学员提出的企业个性化问题提供了专门的辅导和解答,敬业负责。”来自某燃气集团的知识管理部主任如是评价。 下面将课程中大家讨论最激烈的一些话题总结出来和大家分享。 1.企业内部的内容管理应该如何进行分类,各种方式之间如何权衡利弊?企业在内容管理的过程中应该对内容进行专业全面的分类,这是大家一致认可的。实际情况是有些知识管理/内容管理做得比较早、基础比较好的机构,如此次参加培训的新闻通讯社,内部已经建立了一套比较完整的分类词表,并要求内容上传者人工从词表中取词进行主题标引。这样做的好处是信息加工的精确度高,也利于将来的信息分类和精确检索,但弊端是员工的工作量有所增加,且需要有人工长期维护和更新分类词表,保证此表能够“与时俱进”;但大多数的企业过去没有这种基础,系统内的大多数文档是未经加工的非结构化信息,更希望通过系统自动对文档进行分类加工。这种方法当然是省事省力,但信息加工的质量无法完全保证。讨论的结果是企业可以根据自身的基础和条件结合两种方式,对于文章标题、作者、地区等系统容易识别的元数据要素采用系统自动填充完成,但对于文章的主题、应用的部门等元数据则最好由系统自动推荐一些标引词,人工参与检查和确认过程,这样既减少了员工的一部分工作量,也保证了将来信息分类和检索的效果,达到工作质量和效率之间的均衡。? 2.基于算法和基于规则的的自动分类软件各有哪些利弊?自动分类软件的使用效果最终会影响到信息分类和信息检索的精确度,也会直接影响用户的满意程度。基于算法的软件无需建设和更新规则,软件可以通过语料自动学习和提高分类的标准,使用比较简单;但弊端是用户无法影响软件的自动分类结果,明明发现某个分类是错误的,也无法直接更正系统,系统下次还是按照自己的认知来分类。我们通常称这种现象是“黑匣子”现象,即用户看不到黑匣子里面是如何工作的,也无法对其施加影响。基于规则的软件的情况是,由于分类规则的建立就是由用户的分类习惯提炼而成的,因此可以不断地进行调试和改善,使其越来越准确;弊端就是规则的最初建立需要一个较长的过程,且需要不断的对规则进行维护和更新。企业可以根据自身对于分类精确程度的要求来慎重选择软件的类型。 3.如何评价自动标引软件的效果?这也是很多参加培训的同学很关心的问题。目前市面上有很多具有自动标引功能的软件,效果究竟如何评价呢?培训师给出大家两个评价标准:第一是标引的全面度;第二是标引的精准度。具体操作方式是:通过软件对一定数量的文章进行标引(如50篇),再请一组专家(如10人)对这些文献进行人工标引。然后设定“正确标引词”的标准,如10个专家中有6个人以上一致标引的词条为“正确标引词”。则全面度的计算方法是所有文章经过自动标引得到的标引词中,和正确标引词一致的词条数量占正确标引词总量的平均百分比;而精确度的计算方法是自动标引所得词条中,和正确标引词一致的词条数量占自动标引词条总数量的平均百分比。目前从国际上的基本经验来看,全面性能占到70-80%、精确度能达到50-60%的软件比较常见。 4.本体能达到什么样的效果?企业内的知识管理如何向本体方向发展?培训师给了一个简单的例子来说明本体的效果,就是在本体的环境中,如果你在搜索框中输入“新加坡的国父”,它不再是按照关键字搜索的原则仅仅将包含“新加坡的国父”这个词组的结果返回,而是自动找到关于“李光耀”的结果返回给你。系统是如何做到这一点的呢?这是依靠人工在系统中记录了“新加坡国父”和“李光耀”两个词条之间的关系。目前我们在分类词表中只是记录词条之间的“上位词”、“下位词”、“同义词”、“相关词”等几种关系,比如在分类词表的环境下,一个医药企业会记录“阿司匹林”和“感冒”、“XXX制药厂”之间是“相关词”的关系;但是在本体的环境下,它就要将这种相关性明细化,如“阿司匹林”和“感冒”之间是“药品能缓解的病症”关系,和“XXX制药厂”是“能够生产该药品的厂商”关系等等
您可能关注的文档
- 亲子活动调问查卷.doc
- U3T2SD仁爱英语八学年上册.doc
- UE快捷键及常见问题处理.docx
- uml期末考试题A卷和答案.doc
- 人力资源管理历年试卷名词解释.doc
- unit1.12复习.doc
- 人力资源管理第一次作业解答.doc
- Unit12Whatdidyoudolastweekend知识点、一般过去时解析单元测试及答案.doc
- 人口老龄化对我国养老保险制度影响调查问卷.docx
- Unit5Doyoulikepears教案的设计人教新版PEP三年级英语下册.doc
- 2025年辽宁职业学院单招职业技能测试题库含答案.docx
- 2025年遂宁能源职业学院单招职业倾向性测试题库必考题.docx
- 2025年郑州职业技术学院单招职业倾向性测试题库及参考答案.docx
- 2025年郑州铁路职业技术学院单招职业倾向性测试题库及参考答案.docx
- 2025年辽宁生态工程职业学院单招职业倾向性测试题库一套.docx
- 2025年郑州汽车工程职业学院单招职业倾向性测试题库学生专用.docx
- 2025年辽宁轨道交通职业学院单招职业倾向性测试题库1套.docx
- 2025年遵义医药高等专科学校单招职业倾向性测试题库及完整答案一套.docx
- 2025年郑州财税金融职业学院单招职业技能测试题库附答案.docx
- 2025年贵州食品工程职业学院单招职业适应性测试题库1套.docx
文档评论(0)