- 1、本文档共7页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
利用rosette 提取实体 - rapidminer china
利用 Rosette提取实体
安装好 Rosette for RapidMiner 扩展后并设置了API密钥和连接 ,我们就可以开始进行
分析了。
但是还有最后一步 :在 RapidMiner Marketplace 中下载 RapidMiner 的文本处理扩展
RapidMiner’sText Processing extension ,这是一组很有用的文本挖掘扩展 ,允许您加
载 ,过滤和分析来自各种不同来源的文本。 都安装完成后 ,我们前往 RapidMiner Studio ,
之后来演示下 ,使用三个算子创建一个简单的文本挖掘提取流程 :分别是创建文档(Create
Document ),文档数据转换 (Documents to Data )和文本提取 (Extract Entities )。
将以上三个算子拖到 Studio正中间的流程面板中 ,并将它们连接在一起 ,保持上面列出的
顺序。 也可以使用算子搜索栏找到以上算子。
选择创建 ‘Document operator’。 在参数面板中 ,选中添加标签盒 ‘label box’。 在
标签类型 label type 下 ,选择文本 text ,然后输入我的_文本my_text作为标签值。 单击
面板顶部的编辑文本 ‘Edit Text’按钮 ,并将下面的文本复制到弹出窗口中。
“Bill Murray will appear in new Ghostbusters film Dr. PeterVenkman was spotted
filming a cameo in Boston this… http//dlvr.it/BnsFfS.”
点击 ‘Apply Changes’按钮保存。
现在选择数据转换 “Documentsto Data” 算子。 在 “Parameters (参数 )”面板的文
本属性 (labelvalue )字段中输入 “my_text”。
使用蓝色的 “play”按钮执行该过程。 结果显示五个提取的文本。 如您所见 ,Rosette正
确提取了文本中包含的名称和位置。
让我们输入较长的文本文字。 将下面的句子添加到参数文本 parameter text 并重新运行
进程。
“Another original Ghostbuster, DanAkroyd, is also confirmed to have a cameo in
the film.”
从结果我们可以看到 Rosette提取了 DanAkroyd 的名字。 然而 ,眼尖的人可能已经注意
到 , “Akroyd”拼写错误。 (应该是 “Aykroyd”。 )这并不稀奇。 名称拼写频繁的错
误从个人博客到纽约时报等到处可见。 如果您要在大量文档集合中跟踪特定对象 ,请尽可
能确保您的所搜对象名称的拼写是正确的。 Rosette 自动提取并链接具有拼写变体和其他
文本异常的对象 ,并将它们统一列为单个条目。
为了演示此功能 ,让我们在文本提取 Extract Entities 的 ‘parameter’参数面板中启用链
接对象 Link entities。
紧接着 ,我们将在参数文本 ‘parametertext’中添加第三行 ,其中包括 DanAykroyd名
称的正确拼写 ,如下所示 :
“Actually, the correct spelling is Aykroyd.”
当我们再次运行时 ,结果中显示了一个新的 QID列。请注意 ,“DanAkroyd”和“Aykroyd”
具有相同的 QID值 - Rosette 已将其正确标识为同一对象。
QID值是从维基数据中绘制的 ,所以如果一个危机有一个维基数据项 ,Rosette就能够链接
并解决它.
QIDs对机器读取是非常有用 ,但对于人类来说 ,它们可能很难跟踪。 打开包括实体名称”
Include Entity Name”参数能让我们看到除了它们的 QID之外的实体名称。
之后您可以尝试自己动手 :
整合了 RosetteText Toolkit 的 RapidMiner Studio ,我们就可以处理任意的文本挖掘任
务了 !您也可以尝试其他的算子 ,包括分类 (Categorization ),情感分析 (Sentiment
Analysis ),形态分析(MorphologicalAnalysis ),分词(Tokenization ),句标记(Sentence
Tagging ),名称翻译 (Name Translation )和名称匹配 (Name Matching )
文档评论(0)