利用文本采矿探讨红楼梦的后40回作者争议.PDFVIP

  • 3
  • 0
  • 约4.07万字
  • 约 28页
  • 2018-11-21 发布于天津
  • 举报

利用文本采矿探讨红楼梦的后40回作者争议.PDF

利用文本采矿探讨红楼梦的后40回作者争议

40 1 * 《紅樓夢》全書共120 回。一般公認前 80 回的作者是曹雪芹,但後 40 回的作 者則存有爭議。從前學者們主要是透過可以考訂作者、時代、版本的材料,或者從 內容前後的連貫性,來推斷後 40 回是否為他人所續。隨著電腦的出現,研究者開始 利用量化的統計學方法分析前 80 回與後 40 回之間,是否在用字遣詞上存有顯著的 差異。 這類統計方法,通常需先由研究者選定量化標的物(例如虛字頻率),然後再 對這些標的物的分布進行統計檢定。有別於這樣的步驟,本論文運用文本採礦的技 術,先讓電腦計算出可能有趣的候選字詞,然後再利用前後綴詞工具來觀察這些字 詞的前後,經常相隨有哪些字。我們找到許多前人沒有注意到的字詞,它們在前 80 回與後 40 回的使用頻率上存在明顯的差異。例如前 80 回中有 34 回可看到「嬤嬤」 一詞,但「嬤嬤」在後 40 回卻一次也沒有出現過。此外,分析「豈」的後綴字,我 們發現該字有將近七成是被使用於「豈不」與「豈知」。

文档评论(0)

1亿VIP精品文档

相关文档