- 202
- 0
- 约2.38万字
- 约 6页
- 2018-03-10 发布于天津
- 举报
文本作者身份识别研究综述
第59卷 第16期 2015年8月
文本作者身份识别研究综述
1 2 3
■ 祁瑞华 霍跃红 胡润波
1 2
大连外国语大学计算机教研部 大连 116044 大连外国语大学英语学院 大连 116044
3中国大连高级经理学院 大连 116024
摘要:[目的/意义]鉴于传统的作者身份识别方法不适用于当前大量涌现的网络文本。综述近年文本作
者身份识别的典型方法和关键问题,并进行客观分析和评价,以期为进一步研究提供新的思路。[方法/过程]
分别从应用领域、文体特征选取、作者身份建模和性能评价指标等方面对国内外作者身份识别相关研究现状进
行客观分析,梳理相关领域研究发展脉络和趋势。[结果/结论]作者身份识别需要适应短文本、不规范文本、海
量、高维和多语种环境,需更具表现和刻画能力的多层面特征和相应的作者身份建模方法,并借助信息检索、机
器学习和自然语言处理领域的最新研究成果提高效率和准确率。
关键词:身份识别 文体特征 作者身份 建模性能 评价指标
分类号:TP393
DOI:10.13266/j.issn.0252-3116.2015.16.021
1 引言 此领域颇具影响力的综述。
随着大数据时代网络文本的大量涌现,作者身
文本作者身份分析广泛应用于文学作品、商品 份识别领域出现的许多新特点导致作者身份识别难
评论、垃圾电子邮件的作者身份鉴定以及网络舆情 度大大增加。为此,本文结合文献检索顺查法和追
检测等领域,近年来成为国内外学者研究和关注的 溯法,选择国际知名期刊和重点会议中引用率高或
热点。作者身份分析主要有 3类问题:作者身份识 近期的文献,其中2000年以前代表性文献4篇、2000
别、作者模型描述和作者聚类分析。作者身份识别 -2009年文献 15篇、2010年后 15篇、国别分布为美
是以文体风格特征为依据,自动确定文本作者归属 国9篇,中国6篇,希腊4篇,加拿大、澳大利亚和德
的映射过程,可应用于法庭取证、文学分析等问题; 国各2篇,英国、西班牙、荷兰、墨西哥、以色列、法
作者模型描述的主要任务是抽取作者的统计信息, 国、韩国、伊朗和阿拉伯联合酋长国学者各1篇,在此
如性别、年龄等,普遍应用于市场分析;作者聚类是 基础上梳理文本作者身份识别发展的历史脉络,重
通过文体分析进行文本类别划分,主要应用于剽窃 点论述近年来该领域研究的典型方法和关键问题,
检测和特定作者不同时期写作风格的变化分析等。 分别从应用领域、文体风格特征、作者身份建模和性
作者身份研究可以追溯到 1887年T.C.Menden 能评价指标等方面对国内外研究现状进行客观分
[1]
hall 对戏剧作品文体特征的研究,经过国内外学者 析,对文本作者身份识别的未来发展趋势作出展望,
100多年的努力,作者身份识别问题的研究逐步深 以期为进一步研究提供新的思路。
入,D.I.Holmes从语言学和文学研究的视角,对传统
[2] 2 应用现状
文学作品作者身份分析研究进行综述 ,之后 E.Sta
matatos侧重于计算需要和实验环境设置对20世纪 2.1 传统语料作者身份识别
[3]
末至21世纪初的作者身份归属研究做了归纳 ,是 文学作品是作者身份识别的传统语料,研究涉
本文系国家社会科学基金一般项目“典籍英译国外读者网上评论观点挖掘研究”(项目编号:15BYY028)和教育部人文社会科学研究规划青
年基金项目“基于多层面特征分析的在线信息作者身份识别研究”(项目编号:11YJCZH131)研
原创力文档

文档评论(0)