社交媒体语义标注应用现状研究.docVIP

下载本文档

9
0
约9.83千字
约 17页
2018-06-25 发布于福建
举报
版权申诉

社交媒体语义标注应用现状研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

社交媒体语义标注应用现状研究

社交媒体语义标注应用现状研究　　摘要：伴随着社交媒体的发展，为了更实时有效地访问和集成这些跨语言的数据，语义标注发挥了越来越重要的作用，受到越来越多的重视。为了更加全面深入了解社交媒体的语义标注现状，文章首先介绍社交媒体的语义标注方式，然后详细介绍了社交媒体语义标注的主要方法，从关键词短语抽取、基于本体的实体识别、情感分析与观点挖掘和跨媒体联接等角度进行了阐述与分析，另外探讨了改进语义标注效果的两个途径，最后在此基础上对未来发展进行展望。　　关键词：语义标注社交媒体信息抽取　　中图分类号： TP311 文献标识码： A 文章编号： 1003-6938（2013）05-0095-05 　　1 引言　　社交媒体的数据文本短、噪声大，多为对话，数据实时发生，需要基于时间和上下文的即时分析处理。如何实时、有效和经济地去访问和集成这些多语言的数据，是一个严峻挑战，目前的各种技术在准确性、可伸缩性和便携性方面都有所欠缺。　　语义标注把语义模型和自然语言结合在了一起，可以看作是本体和非结构化或半结构化文档之间的关联进行双向动态的生成过程，从技术的角度来讲，语义标注是通过参照在本体里的URI的元数据，从本体（类、实例、属性或者关系等）里标注在文本里出现的概念。使用文本里出现的新的实例去增强本体的方法也称为本体填充。　　社交媒体的自动语义标引可以用于基于语义的搜索、浏览、过滤、推荐、可视化分析用户以及用户之间的社交网络和在线行为的语义模型建立，还有其他的应用场合例如知识管理、竞争情报、客户关系管理、电子政务、电子商务等。　　目前的语义标注技术主要是针对新闻文章或者其他较为正式、篇幅较长的Web内容，由于社交媒体自身具有内容较短、噪声大、跟时间相关、用户产生内容等这些鲜明的特点，给语义标注技术的发展带来新的挑战。　　2 社交媒体语义标注的方式　　语义标注可以采用手工、自动化或半自动化等多种方式进行。　　Passant等[1]提出了语义微博框架模型，以便用户给博文手动的添加机器可读的语义，该框架也支持通过主题标签与关联开放数据进行连接。Hepp等[2]提???了一个新的对微博进行手工语义标注句法，能映射成RDF语句，该句法支持标签、本体属性，例如FOAF和在同一个微博里多个RDF语句之间关系。尽管手工语义标注具有一定的价值，但是每天腾讯、新浪等百万条微博的涌现，亟需自动的语义标引方法。　　信息抽取，作为一个自然语言分析的方式，日益成为在非结构化文本和在本体中的规范化知识之间建起沟通桥梁的关键技术。基于本体的信息抽取就是适用于语义标注的任务，传统的信息抽取和基于本体的信息抽取的一个显著区别就是规范化的本体作为系统的输入和输出，有些信息抽取系统只是把系统输出和本体做一个映射，这些系统严格来讲，应该称为面向本体的系统。基于本体的信息抽取另一个显著的特点是它不仅仅发现被抽取的实体的类型，而且还要把它跟目标知识库里的关于它的语义描述关联起来，通常用一个URI方式识别它，在抽取过程中需要在文档内和文档间进行命名实体、术语、关系等自动识别和共指消解。　　关联开放数据资源，例如DBpedia，YAGO和Freebase等已经成为语义标注本体知识的关键来源，也作为用来消歧的目标本体知识库，他们提供了交叉引用、领域无关的数万条类和关系以及数百万条的实例，一个关联、互补的代名词的资源集合，对应于维基百科的条目和其他外部数据的概念和实例，丰富的类层次用于细粒度分类命名实体，而关于数百万实例和对应维基百科条目的链接的知识也是基于本体抽取系统的一个特点。　　3 社交媒体语义标注的主要方法　　3.1 关键短语抽取　　自动抽取出的关键句可以表示出一个文档或文档集的主题，但不能有效的表达论点或者所有的观点，关键短语抽取因此被认为是一种浅表知识抽取，它也作为降维手段，允许系统处理较小集合的重要的术语而不是全文，用于上下文的语义标注和索引。　　一些关键词语方法利用了术语共现形成术语的图，边为一对术语共现的距离，给顶点分配一定的权重，W Wu等研究表明这一类的术语抽取方法相对依赖于文本模型的方法，在Twitter数据上表现更优。这些基于图的方法在从Twitter中抽取关键短语之所以取得了良好的效果，原因在于这个领域包括了大量的冗余，有利于形成关键词摘要。但主题的多样性增加了抽取一系列相关和准确的关键词的难度，Xin等[3]在关键词组抽取中结合了主题建模来解决该问题。　　当前的相关研究主要是使用该方法来产生新的标签，Qu等[4]在基于词性标签的基础上，从n-gram产生候选的关键短语，然后使用一个监督逻辑回归分类器进行过滤。该方法还可以和分众分类法进一步结合，产生标签签名，例如把分众分类法中的每一个标签和加权的