- 1、本文档共6页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于依存关系的中文微博作者性别识别.pdf
基于依存关系的中文微博作者性别识别木
祁瑞华
(大连外国语大学软件学院 大连 116044
摘要: 【目的 】针对网络文本篇幅短小、传统文体特征集稀疏等特点,探讨依存关系在中文微博作者性别识别中
的应用。【方法 】选取腾讯公开微博作为实验语料,抽取依存关系特征与现有文献中的词汇特征、结构特征、功
能词特征、词性标注特征和微博特征进行对照实验。【结果】采用支持向量机、朴素贝叶斯、最近邻和决策树算
法的对照实验验证了本文方法在中文微博作者性别识别任务中的准确率、召回率和F-Measure最高。【局限】依
存关系在微博作者性别识别中的有效性还需在大规模语料上进一步验证。【结论】本文模型能够避免短文本特征
集的稀疏性,与其他对照特征集相比,能更有效地识别作者性别。
关键词:依存关系 中文微博 性别识别
分类号:TP182
的内容判断作者性别 3【],或是利用中文微博用户名和
1 引 言
微博文本构建作者性别分类融合器4【】等。现有方法的
网络文本随着各种网络应用的快速普及而大量涌 局限在于对用户名等信息的依赖,未考虑作者刻意隐
现,作者身份属性分析在市场营销、网络取证等领域 藏身份的情况。
的应用已经成为热点。Twitter平台上每天新增的信息 为此,本文提出无需微博用户信息的作者性别识
在 5亿条以上,而与此同时用户身份频频被盗用,仅 别方法,通过抽取微博文本的依存关系特征构建微博
2016年就有超过3200万Twitter用户的登录信息被泄 作者性别文体特征模型,并在微博语料上与现有文献
露”【,此后的Twitter身份盗用案例逐年增加。网络社 中的特征集进行 比较,验证依存关系特征在微博作者
交媒体用户量和信息量的激增进一步凸显了作者身份 性别识别中的有效性。
属性研究的迫切性。
2 作者性别识别相关研究
作者性别分析是身份属性研究的主要任务之一,
网络文本作者性别分析有助于商家针对客户群体开展 网络文本作者性别分析研究涉及网络评论 、BBS
精准营销,从而提高个性化推荐和拓展市场的效率。 和博客等语料,以英文为主。代表研究有 Schler等 5【】
作者的性别分析还有助于鉴别匿名虚假信息和不实言 分析了数万篇近 3亿单词的英文博客语料,证实了男
论的来源,避免对社会经济秩序和治安造成严重负面 性与女性在写作风格和 内容方面均存在明显区别 。
影响。 Argamon等[】结合人称代词、限定词、介词、内容特
微博已成为作者性别分析关注的重要领域,2016 征等语言学特征和 BayesianMultinomialRegression
年第一季度仅新浪微博平台的月活跃用户数同比增长 算法对博客作者语料进行作者Jl生别分析,实验结果达
32%,已达到2.61亿[。微博作者的性别识别已成为国 到 70%左右的准确率。此外,在希腊文语料上,Mikros
内外研究的热点,例如利用Twitter用户信息和Tweets 等[8]利用20位作者的博客语料,建立包括词长统计、
通讯作者:祁瑞华,ORCID:0000—0002—2583—3055,E—mail:rhqi@dluf1.edu.cn。
+本文系国家社会科学基金一般项 目“典籍英译国外读者网上评论观点挖掘研究”(项 目编号:15BYY028)和国家教育部回国人员科
研启动基金项 目(项 目编号:教外司[201511098)的研究成果之一。
_圈 数据分析与知识发现
总第2期 2017年 第2期
词汇丰富度、最常用词汇和字符Ngram等特征的文体 3 作者性别文体特征模型
特征集,采用支持向量机算法得到 80%以上的性别识
别准确率。Rangel等9【]提出词频、标点、词性标注、
文档评论(0)