利用rosette 提取实体 - rapidminer china.pdf

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
利用rosette 提取实体 - rapidminer china

利用 Rosette提取实体 安装好 Rosette for RapidMiner 扩展后并设置了API密钥和连接 ,我们就可以开始进行 分析了。 但是还有最后一步 :在 RapidMiner Marketplace 中下载 RapidMiner 的文本处理扩展 RapidMiner’sText Processing extension ,这是一组很有用的文本挖掘扩展 ,允许您加 载 ,过滤和分析来自各种不同来源的文本。 都安装完成后 ,我们前往 RapidMiner Studio , 之后来演示下 ,使用三个算子创建一个简单的文本挖掘提取流程 :分别是创建文档(Create Document ),文档数据转换 (Documents to Data )和文本提取 (Extract Entities )。 将以上三个算子拖到 Studio正中间的流程面板中 ,并将它们连接在一起 ,保持上面列出的 顺序。 也可以使用算子搜索栏找到以上算子。 选择创建 ‘Document operator’。 在参数面板中 ,选中添加标签盒 ‘label box’。 在 标签类型 label type 下 ,选择文本 text ,然后输入我的_文本my_text作为标签值。 单击 面板顶部的编辑文本 ‘Edit Text’按钮 ,并将下面的文本复制到弹出窗口中。 “Bill Murray will appear in new Ghostbusters film Dr. PeterVenkman was spotted filming a cameo in Boston this… http//dlvr.it/BnsFfS.” 点击 ‘Apply Changes’按钮保存。 现在选择数据转换 “Documentsto Data” 算子。 在 “Parameters (参数 )”面板的文 本属性 (labelvalue )字段中输入 “my_text”。 使用蓝色的 “play”按钮执行该过程。 结果显示五个提取的文本。 如您所见 ,Rosette正 确提取了文本中包含的名称和位置。 让我们输入较长的文本文字。 将下面的句子添加到参数文本 parameter text 并重新运行 进程。 “Another original Ghostbuster, DanAkroyd, is also confirmed to have a cameo in the film.” 从结果我们可以看到 Rosette提取了 DanAkroyd 的名字。 然而 ,眼尖的人可能已经注意 到 , “Akroyd”拼写错误。 (应该是 “Aykroyd”。 )这并不稀奇。 名称拼写频繁的错 误从个人博客到纽约时报等到处可见。 如果您要在大量文档集合中跟踪特定对象 ,请尽可 能确保您的所搜对象名称的拼写是正确的。 Rosette 自动提取并链接具有拼写变体和其他 文本异常的对象 ,并将它们统一列为单个条目。 为了演示此功能 ,让我们在文本提取 Extract Entities 的 ‘parameter’参数面板中启用链 接对象 Link entities。 紧接着 ,我们将在参数文本 ‘parametertext’中添加第三行 ,其中包括 DanAykroyd名 称的正确拼写 ,如下所示 : “Actually, the correct spelling is Aykroyd.” 当我们再次运行时 ,结果中显示了一个新的 QID列。请注意 ,“DanAkroyd”和“Aykroyd” 具有相同的 QID值 - Rosette 已将其正确标识为同一对象。 QID值是从维基数据中绘制的 ,所以如果一个危机有一个维基数据项 ,Rosette就能够链接 并解决它. QIDs对机器读取是非常有用 ,但对于人类来说 ,它们可能很难跟踪。 打开包括实体名称” Include Entity Name”参数能让我们看到除了它们的 QID之外的实体名称。 之后您可以尝试自己动手 : 整合了 RosetteText Toolkit 的 RapidMiner Studio ,我们就可以处理任意的文本挖掘任 务了 !您也可以尝试其他的算子 ,包括分类 (Categorization ),情感分析 (Sentiment Analysis ),形态分析(MorphologicalAnalysis ),分词(Tokenization ),句标记(Sentence Tagging ),名称翻译 (Name Translation )和名称匹配 (Name Matching )

文档评论(0)

wujianz + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档