- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第九届“泰迪杯”数据挖掘挑战赛C题-建模思路参考
明⽩甲⽅要什么
· 1.吸引顾客,稳定客源
· 2.发现竞争优势
· 3.游客满意度以及影响因素
这三者的关系
· 1是最终⽬的,是核⼼
· 23是1的路径研究
· 2与3先导
我们有什么?
项⽬ Value
2个附件 景区和酒店的评论 数据(⽰例数据和⽐赛数据);景区和酒店的评分样表;关键词样表
1个C题详细说明 __
要解决的问题?
· 1景区及酒店印象分析
· 2景区及酒店综合评价
· 3⽹评⽂本的有效性分析
· 4景区及酒店的特⾊分析
1景区及酒店印象分析
· 初步构思
实现关键词获取,并通过统计关键词的词频⼤⼩获取评论焦点的热度,具体挖掘流程如下所⽰。⾸先基于词法分析做评论的分词和词条的词
性标注,⽂本过滤筛选符合关键词搜索域的词条,⽐如,名词、动词、形容词等,接着基于关键词抽取技术抽取关键词,最后,对关键词做
词频统计并基于词云图展⽰评论热点评论焦点。
我的其他NPL⽂章参考【】【】
2景区及酒店综合评价
· 拿⼿菜初步构思
建⽴综合评价体系
题⽬已经给出了要求 从服务、位置、设施、卫⽣、性价⽐五个维度建⽴指标体系
⽤独热编码
通多对⽂本词的训练,将每个词都映射到⽐较短、稠密度⾼的向量上来。所有的词构成⼀个向量空间,通过统计学的⽅法来研究词之间的关
系。
把原本的词向量映射到这个相对低维空间的过程就称为词嵌⼊(Word Embedding)
达到的效果
景区名称 总得分 服务得分 位置得分 设施得分 卫⽣得分 性价⽐得分
A01 4.3 …
A02 4.3 …
A03 1.3 …
… … …
这⾥出来的是降维后的独热编码
还可以通过⼀些综合评价⽅法来做
常见的 熵权法+Topsis结合、层次分析法等等
难⼀点可以⽤决策表属性约简等⽅法
· 从
⾓度反映对模型进⾏评价——exm?
3⽹评⽂本的有效性分析
初步感觉是 数据清洗,但这⾥好像是 做⼀个关于垃圾评论的筛选、删除的模型。
就⽐如我们逛淘宝的时候,淘宝社区会⾃动帮我屏蔽掉⼀些⽆⽤的评论,给到消费者有效评论
主要涉及:⽂本去重 这⾥可以基于⽂本之间的相似度计算,包括编辑距离去重,simhash算法去重等,但是也会去除⼀些相近的表达,可
能会误删。推荐使⽤⽐较删除法
4景区及酒店的特⾊分析
感觉好像是有点像⽤户画像(Profile)⼀样
将景点和酒店按⾼中低三个层次
以前做过,感觉上可以⽤基于⾼斯云理论模型的K-means聚类⽅法。当然做⽤户画像的⽅法有很多种,供选择的也有很多【】
但是!这⾥有感觉有点多余了?
前⾯不是有综合评价模型?是否可以取综合得分,按照等级5分划分为三个等级?按照不同等级,分别对5个维度进⾏衡量,从⽽得到不同
等级的特⾊?下对策建议等。。。
疑惑点
这个评论时间没想到怎么⽤?
具体的算法还没有落实到实处,只是具体有⼀了⼀个构思
欢迎留⾔交流!⼀起进步
原创力文档


文档评论(0)