- 1、本文档共11页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
信息处理模块
要求:
(1) 利用自然语言处理、数据挖掘技术对爬去的网站、论坛、博客、微博等进行文本挖掘,从各种网络信息中准确提取出用户关心事件的时间、地点、主体、行为和客体等要素;
(2) 分析用户对事件要素的态度,构成特定的用户关注及态度模型。对大量不同类型网络信息的挖掘将形成具有差异性的模型库,同时也可以通过用户问卷调查的方式,获取更多具有差异性的关注模型作为补充。
1. 自然语言处理工具包:fudanNLP
fudanNLP主要是为中文自然语言处理而开发的工具包,也包含为实现这些任务的机器学习算法和数据集。本工具包及其包含数据集使用LGPL3.0许可证。开发语言为Java。主要功能有:1. 文本分类 新闻聚类;2. 中文分词 词性标注 实体名识别 关键词抽取 依存句法分析 时间短语识别;3. 结构化学习 在线学习 层次分类 聚类 精确推理。
InputStr1 = 甬温线特别重大铁路交通事故车辆经过近24小时的清理工作,26日深夜已经全部移出事故现场,之前埋下的D301次动车车头被挖出运走;
InputStr2 = 甬温线|特别|重大|铁路交通事故车辆经过近24小时的清理工作,26日深夜已经全部移出事故现场,之前埋下的D301次动车车头被挖出运走;
抽取top10:
Output1 = {甬温线=100, 运走=100, 事故=52, 工作=41, 深夜=36, 清理=36, 全部=33, 小时=30, 移出=30, 车辆=26};
import java.util.ArrayList;
Import java.util.Map;
import org.fnlp.app.keyword.AbstractExtractor;
import org.fnlp.app.keyword.WordExtract;
import .tag.CWSTagger;
import edu.fudan.nlp.corpus.StopWords;
public class GetKeywords {
public ArrayListString GetKeyword(String News,int keywordsNumber) throws Exception{
ArrayListString keywords=new ArrayListString();
StopWords sw= new StopWords(models/stopwords);
CWSTagger seg = new CWSTagger(models/seg.m);
AbstractExtractor key = new WordExtract(seg,sw);
MapString,Integer ans = key.extract(News, keywordsNumber);
for (Map.EntryString, Integer entry : ans.entrySet()) {
String keymap = entry.getKey().toString();
String value = entry.getValue().toString();
keywords.add(keymap);
System.out.println(key + keymap + value + value);
}
return keywords;
}
}
输出结果是这样:
2. 关键字提取后对文本进行分类
第一步,对文档进行预处理过程。按照文本文档数据集(一般分目录放置文本
文档)路径对所有训练文档扫描,分析出不同的单词。
第二步,建立词频矩阵。预处理之后,将文章变为一个词集,单词也称为特征项或属性。把文档看成是一个词向量(word?vector?),它的维数是所有不同的单词个数,词集中可以有数万个不同的单词。
第三步,构造文本分类器。词频统计矩阵是算法建模的基础。在词频统计矩阵的基础上根据特定的算法构造分类器。主要任务是根据不同分类算法,计算词向量的权值。
目前较为著名的文本分类算法包括支持向量机(Support?Vector?Machine,SVM),?K?近邻法(K-?Nearest?Neighbour,KNN),?朴素贝叶斯
您可能关注的文档
最近下载
- GB_T 43866-2024 企业能源计量器具配备率检查方法.pdf
- 《“五育融合”视野下学校和美课程的构建与实施》课题结题研究报告.doc
- PW4203三节锂电池12.6V充电芯片规格书.pdf VIP
- 外研社 现代大学英语4教案.pdf VIP
- 《上海东海大桥海上风电工程施工方案》.doc
- 22G101-3 混凝土结构施工图 平面整体表示方法制图规则和构造详图(独立基础、条形基础、筏形基础、桩基础).docx
- 河南省郑州市高新区2023-2024学年七年级上学期期末语文试题(含答案).pdf VIP
- 脉诀理玄秘要 1册 南宋刘开撰医学古籍书 36页.pdf
- 2023年1月福建省普通高中学业水平合格性考试(政治试题)PDF版.pdf VIP
- 国开01738_学前教育学-机考复习资料.docx
文档评论(0)