- 1、本文档共5页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
文化组学:在数字人文学领域中的探索——记分子生物学家利波曼·埃顿的“文字游戏”胡昭阳/编译通过对世界各类书籍的数据挖掘,艾略兹·利伯曼·埃顿(E.Lieberman Aiden)正尝试实现绝大多数的人文研究的自动化。但是,这个领域准备好数字化了吗?四月下旬的一天,利波曼·埃顿(左图)在他郊区住宅的阳光露台上,一边赤着脚来回带球,一边大声的祷告着:“Shalom aleichem(和平在您)”,此时的天空已变成靛蓝色,日光和煦,有一丝丝的暖意。安息日晚餐埃顿是个分子生物学家、应用数学家,在31岁时,就已经是数字人文领域的资深前辈。就在前一天晚上,他刚赶夜车从纽泽西州普林斯顿大学回来。在那儿,这位“极客”(美国俚语“geek”的音译。随着互联网文化的兴起,这个词含有智力超群和努力的语意,又被用于形容对计算机和网络技术有狂热兴趣并投入大量时间钻研的人——译注)向一屋子渊博的历史学家说明,他已经对500万册图书进行了数据挖掘,这会使他们的工作变得容易很多。比如,以前可能需要耗费整个职业生涯才能完成对历史学中某种思想的追踪,但运用埃顿和他同事发明的工具,只要几秒钟就可以完成。然而,人文领域变革中所说的布道者,或者是末日先知的角色,这只是埃顿的众多身份之一。他还是一个揭示DNA是怎样从紧密聚集又适度松散而排列组成生命的突破性电脑协议的发明者;将传感器植入鞋子以帮助老年人保持走路平衡的iShoe公司的首席执行官;以及和妻子一起作为创始人,发起了将数以千计的填充动物玩具送给发展中国家儿童的“无国界熊”运动。在对于令他兴奋的各类项目投入大量精力的同时,埃顿并没有过分忽略,也没有在意它们之间的界限。尽管目前在他还是哈佛大学的一名博士后,但埃顿几乎将他个人项目的成果写成了《科学》和《自然》杂志的封面文章。他把这些封面都挂在露台后面的楼梯间,因此也被人非议过是在自我炫耀。不过那些都是工作,现在正是安息日晚餐之时,犹太教规定的休假开始了:电灯的开关不能触碰,房间整晚都得是通亮的;盘子中的肉在计时加热,三根点燃的蜡烛代表着一家三口人。此时,埃顿用爽朗的男中音唱着歌并凝视着妻子阿维娃·普瑞瑟·埃顿(Aviva Presser Aiden),后者在微寒的夜风中抱着毛衣,以微笑回报。一周前,他妻子得知自己获得了比尔-梅琳达·盖茨基金会十万美元的资助经费,用以研制在非洲给手机充电的微生物燃料电池。这个项目意味着她要暂停在波士顿哈佛医学院一年的时间,尽管她已经有了一个遗传学博士学位,目前正在攻读医学博士学位。文化组学埃顿常说,对于一个阅读时间有限的读者而言,通常有两种选择:你可以非常仔细地看少量的书,或者你可“非常非常不仔细”地阅读大量书籍。在一种被称为仔细研读的过程中,人们在资料中寻找原始出处,通过对文本的强调、注释、交叉引用,确定和解释作者意图、历史线索及语言的演变。2007年埃顿给《自然》杂志写论文时使用的就是这种方法——通过筛选古老的语法书籍,他和同事们发现有177个动词在古英语时代(公元800年前后)是不规范的,他们研究了这些词语在中古英语(公元1200年前后)中的词性变化以及在当代英语中的使用。研究发现,相对于常用的词语,不太常用的动词规范化的速度要快很多,如“加工”演化成了“工作”,而“去”却还是“去”。这项研究让埃顿直接体会到,传统的人文研究方法是多么地艰苦。不过,埃顿想到,如果你“不那么仔细”地阅读了所有的书会如何呢?你可以展示出动词的变化并非只存在于某个历史时刻,而是和文化的演变一起持续的。开始思考这个问题后,埃顿意识到,这种“读”书方式可能正是谷歌图书项目的雄心所在——谷歌数字化的1800万本图书,其中绝大部分是1800年后出版的。2007年,埃顿给谷歌图书团队成员发出了电子邮件,出乎意料地,仅仅一周后,他就受邀同谷歌研究部总监彼得·诺维格(Peter Norvig)会面。和谷歌以及他的主要合作者、29岁的哈佛大学心理学博士后杰·B·米歇尔(Jean B.Michel)一起,埃顿设计了一个名叫“n-grams”统计器的软件工具,绘制出在一个包含500亿单词的语料库中的词语出现的频率。“1gram”测算单个单词,比如“女权主义”在一段时期中出现的频率,“2gram”用来显示组合词组,例如“联系相关人员”。2010年12月16日,谷歌推出了“n-grams”工具。也就在同一天,埃顿和他的同事在《科学》杂志上发表论文,描述怎样使用这个工具。例如,要确定规范化最快的动词,会发现从“骂”到“斥”到“斥责”仅花了200年时间。“我们发现‘已发现’出现了20万次,远远大于‘已然发现’的次数”,他们似乎游戏一样地写着。“相比之下,‘已居住’出现的次数仅仅是‘已然居住’的60倍”。通过对比20世纪前半叶的德语和英语文本,研究小组展示了通过已知被纳粹政权压迫的犹
您可能关注的文档
- 福建省农业科学院科技创新团队的.doc
- 附件12014年度国家工程建设(勘察设计)优秀QC小组申报.doc
- 奈达铂的液相分析报告.pdf
- 附件32015年柳州市科学研究与技术开发计划课题申报书-.doc
- 南方某水源水中天然有机物的特点及氯胺对氯化消毒副产物的控制.pdf
- 肝切除术前肝脏储备功能评估的专家共识(2011版).doc
- 农行财务报表分析模板.ppt
- 偶联剂KH-550改性煅烧高岭土对NBR胶料性能的影响.pdf
- 偶联剂改性纳米Al2O3粒子对NBR改性酚醛树脂摩擦磨损性能的影响研究.pdf
- 高校Excel模板常见的问题及对策.doc
- 2025年吉林省中考地理试卷(含解析).pdf
- 2025年陕西省中考道德与法治试卷(含解析).docx
- 第四单元比应用专项5篇-2025年五升六年级数学暑假衔接应用专项(解析版)人教版.docx
- 07【小升初专项训练】 繁分数.docx
- 第四单元小数的意义和性质应用专项14篇-2025年四升五年级数学暑假衔接应用专项(原卷版)人教版.docx
- 第四单元小数的意义和性质应用专项14篇-2025年四升五年级数学暑假衔接应用专项(解析版)人教版.docx
- 不做“扫兴式父母”,构建良好亲子关系.docx
- 控制迷局:父母过度干预对青少年心理发展的深层影响.docx
- 零散建筑工程施工方案(3篇).docx
- 青蓝工程公开课实施方案(3篇).docx
文档评论(0)