实验算法部分.docVIP

  1. 1、本文档共11页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
信息处理模块 要求: (1) 利用自然语言处理、数据挖掘技术对爬去的网站、论坛、博客、微博等进行文本挖掘,从各种网络信息中准确提取出用户关心事件的时间、地点、主体、行为和客体等要素; (2) 分析用户对事件要素的态度,构成特定的用户关注及态度模型。对大量不同类型网络信息的挖掘将形成具有差异性的模型库,同时也可以通过用户问卷调查的方式,获取更多具有差异性的关注模型作为补充。 1. 自然语言处理工具包:fudanNLP fudanNLP主要是为中文自然语言处理而开发的工具包,也包含为实现这些任务的机器学习算法和数据集。本工具包及其包含数据集使用LGPL3.0许可证。开发语言为Java。主要功能有:1. 文本分类 新闻聚类;2. 中文分词 词性标注 实体名识别 关键词抽取 依存句法分析 时间短语识别;3. 结构化学习 在线学习 层次分类 聚类 精确推理。 InputStr1 = 甬温线特别重大铁路交通事故车辆经过近24小时的清理工作,26日深夜已经全部移出事故现场,之前埋下的D301次动车车头被挖出运走; InputStr2 = 甬温线|特别|重大|铁路交通事故车辆经过近24小时的清理工作,26日深夜已经全部移出事故现场,之前埋下的D301次动车车头被挖出运走; 抽取top10: Output1 = {甬温线=100, 运走=100, 事故=52, 工作=41, 深夜=36, 清理=36, 全部=33, 小时=30, 移出=30, 车辆=26}; import java.util.ArrayList; Import java.util.Map; import org.fnlp.app.keyword.AbstractExtractor; import org.fnlp.app.keyword.WordExtract; import .tag.CWSTagger; import edu.fudan.nlp.corpus.StopWords; public class GetKeywords { public ArrayListString GetKeyword(String News,int keywordsNumber) throws Exception{ ArrayListString keywords=new ArrayListString(); StopWords sw= new StopWords(models/stopwords); CWSTagger seg = new CWSTagger(models/seg.m); AbstractExtractor key = new WordExtract(seg,sw); MapString,Integer ans = key.extract(News, keywordsNumber); for (Map.EntryString, Integer entry : ans.entrySet()) { String keymap = entry.getKey().toString(); String value = entry.getValue().toString(); keywords.add(keymap); System.out.println(key + keymap + value + value); } return keywords; } } 输出结果是这样: 2. 关键字提取后对文本进行分类 第一步,对文档进行预处理过程。按照文本文档数据集(一般分目录放置文本 文档)路径对所有训练文档扫描,分析出不同的单词。 第二步,建立词频矩阵。预处理之后,将文章变为一个词集,单词也称为特征项或属性。把文档看成是一个词向量(word?vector?),它的维数是所有不同的单词个数,词集中可以有数万个不同的单词。 第三步,构造文本分类器。词频统计矩阵是算法建模的基础。在词频统计矩阵的基础上根据特定的算法构造分类器。主要任务是根据不同分类算法,计算词向量的权值。 目前较为著名的文本分类算法包括支持向量机(Support?Vector?Machine,SVM),?K?近邻法(K-?Nearest?Neighbour,KNN),?朴素贝叶斯

文档评论(0)

guocuilv2018 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档