- 1、本文档共5页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
(MALLET教程
Mallet:自然语言处理工具包
发表于128 天前???技术,?科研???评论数 6?? 被围观?1006?Views+
MALLET是基于java的自然语言处理工具箱,包括分档得分类、句类、主题模型、信息抽取等其他机器学习在文本方面的应用,虽然是文本的应用,但是完全可以拿到多媒体方面来,例如机器视觉。
MALLET包含了足够的文本分类的算法,还有特征提取的算法等。文本分类的算法像是Na?ve Bayes, Maximum Entropy, and Decision Trees等,而且也对代码做了优化。
MALLET也包含sequence tagging的工具和算法,例如信息抽取的应用等,算法有Hidden Markov Models, Maximum Entropy Markov Models, and Conditional Random Fields.
MALLET也包含主题模型:topic modeling?toolkit contains efficient, sampling-based implementations of Latent Dirichlet Allocation, Pachinko Allocation, and Hierarchical LDA.
MALLET当然还有其他功能,很强大。下面是api和一个pdf的链接:[API] [教程]。
==============关于MALLET的安装配置==================
这里有一个安装配置的说明,我把它转载过来了:
Mallet?使用说明
?
Mallet是专门用于机器学习方面的软件包,此软件包基于java。通过mallet工具,可以进行自然语言处理,文本分类,主题建模。文本聚类,信息抽取等。下面是从如何配置mallet环境到如何使用mallet进行介绍。
?
一.
1.???????下载并安装JDK,并正确设置环境变量
需设置三个环境变量:
?????????JAVA_HOME:该环境变量的值就是Java所在的目录,
例如C:\Program Files\Java\jdk1.6.0_10
?????????PATH:指定一个路径列表,用于搜索可执行文件。
该环境变量值为:%JAVA_HOME%\bin
????????CLASSPATH:指定一个路径列表,是用于搜索Java?编译或者运行时需要用到的类。该环境变量的值为:%JAVA_HOME%\lib\tools.jar;%JAVA_HOME%\lib\dt.jar
????????运行?cmd
?????????分别输入javac和java,没有出错则表示配置成功。
2.???????下载apache-ant,不需安装,只需正确设置环境变量。
apache-ant是一个基于Java的编译工具。
????????下载?/bindownload.cgi,解压?放到你要的目录
????????配置
??????ANT_HOME:设置为apache-ant的解压目录,例如:C:\server\apache-ant-1.8.0?????????????classpath:?%ANT_HOME%\lib
??????Path?:%ANT_HOME%\bin
????????测试
????????运行?cmd
?????????输入?ant
结果如下则表示配置成功
Buildfile:?build.xml?does not exist!Build failed
3.下载mallet?最新版本mallet-2.0.5,地址:/download.php
???????配置环境变量:
?????????MALLET_HOME=MALLET的解压目录,例如C:\mallet
?????????Path中添加?%MALLET_HOME%\bin
?????????classpath:%mallet_home%\class;%mallet_home%\lib;%mallet_home%\lib\mallet-deps.jar
????????运行?cmd,进入到mallet的解压目录
?????????输入?ant
如果出现Build successful字样,则表示配置成功
?
二.Mallet
?
全称:MAchine?Learning for?LanguagE?Toolkit
Mallet是一java的软件包,专门用于统计自然语言处理,文本分类,主题建模,信息抽取,以及其它涉及文本的机器学习方面的应用。
a)?????????文本分类:它的基本思想是,用大量的训练样本训练分类器,再用些测试样本测试分类器的性能,然后保存训练好的分类器模型。当将未知类别的文本输入已训练好的分类模型时,可输出此未知类别
您可能关注的文档
- (6年纪劳动与技术简案.doc
- (6外科手术基本功练习缝合.doc
- (6施工现场管理.doc
- (6月7日金正昆谈礼仪之名片礼仪.doc
- (6篇适合中小学生独诵的诗歌.doc
- (7080年代好歌.docx
- (6高空坠落、物体打击应急预案.doc
- (70年代80年代的流行经典歌曲.doc
- (5中国现代诗歌五首.doc
- (70年代日语歌.doc
- 2025年海南职业技术学院单招英语2014-2024历年真题考点试卷摘选含答案解析.docx
- 2025年渤海船舶职业学院单招职业适应性测试历年(2019-2024年)真题考点试卷含答案解析.docx
- 2025年温州科技职业学院单招职业技能测试近5年真题考点含答案解析.docx
- 2025年温州科技职业学院单招职业适应性测试历年(2019-2024年)真题考点试卷含答案解析.docx
- 2025年温州科技职业学院单招语文2019-2024历年真题考点试卷含答案解析.docx
- 2025年渤海船舶职业学院单招(数学)历年真题考点含答案解析.docx
- 联合救治房颤患者的协议书10篇.docx
- 2025年温州职业技术学院单招职业技能测试近5年真题考点含答案解析.docx
- 2025年温州职业技术学院单招英语2014-2024历年真题考点试卷摘选含答案解析.docx
- 2025年温州职业技术学院单招语文2019-2024历年真题考点试卷含答案解析.docx
文档评论(0)