- 10
- 0
- 约2.09万字
- 约 6页
- 2018-12-13 发布于天津
- 举报
基于依存关系的中文微博作者性别识别-中国科学院科技论文预发布平台.PDF
研究论文
基于依存关系的中文微博作者性别识别*
祁瑞华
(大连外国语大学软件学院 大连 116044 )
摘要: 【目的 】针对网络文本篇幅短小、传统文体特征集稀疏等特点, 探讨依存关系在中文微博作者性别识别中
的应用。【方法 】选取腾讯公开微博作为实验语料, 抽取依存关系特征与现有文献中的词汇特征、结构特征、功
能词特征、词性标注特征和微博特征进行对照实验。【结果 】采用支持向量机、朴素贝叶斯、最近邻和决策树算
法的对照实验验证了本文方法在中文微博作者性别识别任务中的准确率、召回率和F-Measure 最高。【局限 】依
存关系在微博作者性别识别中的有效性还需在大规模语料上进一步验证。【结论 】本文模型能够避免短文本特征
1 集的稀疏性, 与其他对照特征集相比, 能更有效地识别作者性别。
v 关键词: 依存关系 中文微博 性别识别
2 分类号: TP182
6
9
1
0. 的内容判断作者性别[3], 或是利用中文微博用户名和
1 1 引 言 微博文本构建作者性别分类融合器[4]等。现有方法的
1
7 网络文本随着各种网络应用的快速普及而大量涌 局限在于对用户名等信息的依赖, 未考虑作者刻意隐
1 现, 作者身份属性分析在市场营销、网络取证等领域 藏身份的情况。
0
2 的应用已经成为热点。Twitter 平台上每天新增的信息 为此, 本文提出无需微博用户信息的作者性别识
: 在 5 亿条以上, 而与此同时用户身份频频被盗用, 仅 别方法, 通过抽取微博文本的依存关系特征构建微博
v
i 2016 年就有超过3 200 万Twitter 用户的登录信息被泄 作者性别文体特征模型, 并在微博语料上与现有文献
X 露[1], 此后的 Twitter 身份盗用案例逐年增加。网络社 中的特征集进行比较, 验证依存关系特征在微博作者
a
n 交媒体用户量和信息量的激增进一步凸显了作者身份 性别识别中的有效性。
i
h 属性研究的迫切性。
c 作者性别分析是身份属性研究的主要任务之一, 2 作者性别识别相关研究
网络文本作者性别分析有助于商家针对客户群体开展 网络文本作者性别分析研究涉及网络评论、BBS
精准营销, 从而提高个性化推荐和拓展市场的效率。 和博客等语料, 以英文为主。代表研究有 Schler 等[5]
作者的性别分析还有助于鉴别匿名虚假信息和不实言 分析了数万篇近 3 亿单词的英文博客语料, 证实了男
论的来源, 避免对社会经济秩序和治安造成严重负面 性与女性在写作风格和内容方面均存在明显区别。
影响。 Argamon 等[6-7]结合人称代词、限定词、介词、内容特
微博已成为作者性别分析关注的重要领域, 2016 征等语言学特征和 Bayesian Multinomial Regression
年第一季度仅新浪微博平台的月活跃用户数同比增长 算法对博客作者语料进行作者性别分析, 实验结果达
32%, 已达到2.61 亿[2] 。微博作者的性别识别已成为国 到70%左右的准确率。此外, 在希腊文语料上, Mikros
内外研究的热点, 例如利用Twitter 用户信息和Tweets 等[8]利用20 位作者的博客语料, 建立包括词长统计、
通讯作者: 祁瑞华, ORCID: 0000-0002-2583-3055, E-mail: rhqi@ 。
*本文系国家社会科学基金一般项目“典籍英译国外读者网上评论观点挖掘研究”(项目编号: 15BYY028)和国家教育部回国人员科
研启动基金项目(项目编号: 教外司[2015]1098)的研究成果之一。
原创力文档

文档评论(0)