实验算法部分.docVIP

下载本文档

0
0
约1.14万字
约 11页
2019-12-01 发布于江西
举报
版权申诉

实验算法部分.doc

1、本文档共11页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

信息处理模块要求： (1) 利用自然语言处理、数据挖掘技术对爬去的网站、论坛、博客、微博等进行文本挖掘，从各种网络信息中准确提取出用户关心事件的时间、地点、主体、行为和客体等要素； (2) 分析用户对事件要素的态度，构成特定的用户关注及态度模型。对大量不同类型网络信息的挖掘将形成具有差异性的模型库，同时也可以通过用户问卷调查的方式，获取更多具有差异性的关注模型作为补充。 1. 自然语言处理工具包：fudanNLP fudanNLP主要是为中文自然语言处理而开发的工具包，也包含为实现这些任务的机器学习算法和数据集。本工具包及其包含数据集使用LGPL3.0许可证。开发语言为Java。主要功能有：1. 文本分类新闻聚类；2. 中文分词词性标注实体名识别关键词抽取依存句法分析时间短语识别；3. 结构化学习在线学习层次分类聚类精确推理。 InputStr1 = 甬温线特别重大铁路交通事故车辆经过近24小时的清理工作，26日深夜已经全部移出事故现场，之前埋下的D301次动车车头被挖出运走; InputStr2 = 甬温线|特别|重大|铁路交通事故车辆经过近24小时的清理工作，26日深夜已经全部移出事故现场，之前埋下的D301次动车车头被挖出运走; 抽取top10: Output1 = {甬温线=100, 运走=100, 事故=52, 工作=41, 深夜=36, 清理=36, 全部=33, 小时=30, 移出=30, 车辆=26}; import java.util.ArrayList; Import java.util.Map; import org.fnlp.app.keyword.AbstractExtractor; import org.fnlp.app.keyword.WordExtract; import .tag.CWSTagger; import edu.fudan.nlp.corpus.StopWords; public class GetKeywords { public ArrayListString GetKeyword(String News,int keywordsNumber) throws Exception{ ArrayListString keywords=new ArrayListString(); StopWords sw= new StopWords(models/stopwords); CWSTagger seg = new CWSTagger(models/seg.m); AbstractExtractor key = new WordExtract(seg,sw); MapString,Integer ans = key.extract(News, keywordsNumber); for (Map.EntryString, Integer entry : ans.entrySet()) { String keymap = entry.getKey().toString(); String value = entry.getValue().toString(); keywords.add(keymap); System.out.println(key + keymap + value + value); } return keywords; } } 输出结果是这样： 2. 关键字提取后对文本进行分类第一步，对文档进行预处理过程。按照文本文档数据集(一般分目录放置文本文档)路径对所有训练文档扫描，分析出不同的单词。第二步，建立词频矩阵。预处理之后，将文章变为一个词集，单词也称为特征项或属性。把文档看成是一个词向量(word?vector?)，它的维数是所有不同的单词个数，词集中可以有数万个不同的单词。第三步，构造文本分类器。词频统计矩阵是算法建模的基础。在词频统计矩阵的基础上根据特定的算法构造分类器。主要任务是根据不同分类算法，计算词向量的权值。目前较为著名的文本分类算法包括支持向量机(Support?Vector?Machine,SVM),?K?近邻法(K-?Nearest?Neighbour,KNN),?朴素贝叶斯