使用带力机制双向TM去匿名化莎士比亚与中本聪作品.pdfVIP

  • 0
  • 0
  • 约3.2万字
  • 约 28页
  • 2026-01-21 发布于北京
  • 举报

使用带力机制双向TM去匿名化莎士比亚与中本聪作品.pdf

ShakespeareandSatoshi‑使用带注意力机制的双向

LSTM去化写作

VarunRamesh

vframesh2@

Jean‑LucWatson

jlwatson@

我们应用带有注意力机制的双向LSTMs来解决归属和假名作品的问题。我们

关注两个实例——归因于莎士比亚的戏剧,以及创造者中本聪的

识别。在莎士比亚的情况下,我们在保留数据集上达到了91.95%的测试准确率,

但在争议作品上的结果参差不齐,有些成功。对于中本聪,我们达到了85.94%的

测试准确率,但对中本聪的没有确定的结果。我们的发现对之前和项目

所吹嘘的成功提出了质疑——基于标记数据的作者分类并不必然推广到未标记的

数据。

1引言

1.1文体学

作品的作者可能因多种而未知。作者或假名作品以避免报

复或不必要的注意。在案例中,记录可能、被销毁或存在;

因此真正的作者仍存争议。此外,作者可能被故意误报以增加销售

或对已作品的关注,从而误导缺乏当时社会背景的未来观察者。

文体学,即对作者写作风格的研究,可以用来确定有争议作品的原作者。如今,

文体学通常依赖计算机和现代统计技术来将有争议的作品与一组已知归属的作品

进行比较。早期的技术包括朴素贝叶斯分类和主成分分析,但的文体研究重

点已经转向神经网络。

ShakespeareandSatoshi-De-anonymizingWriting

UsingBiLSTMswithAttention

VarunRamesh

vframesh2@

Jean-LucWatson

jlwatson@

WeapplybidirectionalLSTMswithattentiontotheproblemofattributinganonymous

andpseudonymousworks.Wefocusontwoinstancesoftheproblem-theattribution

ofanonymousysbelievedtohavebeenwrittenbyShakespeare,andthe

identificationofSatoshiNakamoto,thecreatorofBitcoin.InthecaseofShakespeare,

wemanageatestaccuracyof91.95%onahold-outdataset,butfoundourresultson

disputedworkstobemixed,withsomesuccesses.InthecaseofSatoshi,wemanagea

testaccuracyof85.94%,buthavenoconclusiveresultonSatoshiNakamoto’sidentity.

Ourfindingscastdoubtonthesuccessestoutedbypreviouspapersandprojects-

authorshipclassificationonlabeleddatadoesnotinherentlygeneralizetounlabeled

data.

1Introduction

1.1Stylometry

Authorshipofaworkmaybeunknownforseveralreasons.Authorspublishworks

anonymouslyorpseudonymouslytoavoidretributionorunwantedattention.In

historicalcases,recordsmaybeincomplete,destroyed,orconflicting;thusthetrue

authorshipremainsindispute.Furthermore,authorshipmaybeintentionally

mi

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档