第九届“泰迪杯”数据挖掘挑战赛C题-建模思路参考.pdfVIP

第九届“泰迪杯”数据挖掘挑战赛C题-建模思路参考.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第九届“泰迪杯”数据挖掘挑战赛C题-建模思路参考 明⽩甲⽅要什么 · 1.吸引顾客,稳定客源 · 2.发现竞争优势 · 3.游客满意度以及影响因素 这三者的关系 · 1是最终⽬的,是核⼼ · 23是1的路径研究 · 2与3先导 我们有什么? 项⽬ Value 2个附件 景区和酒店的评论 数据(⽰例数据和⽐赛数据);景区和酒店的评分样表;关键词样表 1个C题详细说明 __ 要解决的问题? · 1景区及酒店印象分析 · 2景区及酒店综合评价 · 3⽹评⽂本的有效性分析 · 4景区及酒店的特⾊分析 1景区及酒店印象分析 · 初步构思 实现关键词获取,并通过统计关键词的词频⼤⼩获取评论焦点的热度,具体挖掘流程如下所⽰。⾸先基于词法分析做评论的分词和词条的词 性标注,⽂本过滤筛选符合关键词搜索域的词条,⽐如,名词、动词、形容词等,接着基于关键词抽取技术抽取关键词,最后,对关键词做 词频统计并基于词云图展⽰评论热点评论焦点。 我的其他NPL⽂章参考【】【】 2景区及酒店综合评价 · 拿⼿菜初步构思 建⽴综合评价体系 题⽬已经给出了要求 从服务、位置、设施、卫⽣、性价⽐五个维度建⽴指标体系 ⽤独热编码 通多对⽂本词的训练,将每个词都映射到⽐较短、稠密度⾼的向量上来。所有的词构成⼀个向量空间,通过统计学的⽅法来研究词之间的关 系。 把原本的词向量映射到这个相对低维空间的过程就称为词嵌⼊(Word Embedding) 达到的效果 景区名称 总得分 服务得分 位置得分 设施得分 卫⽣得分 性价⽐得分 A01 4.3 … A02 4.3 … A03 1.3 … … … … 这⾥出来的是降维后的独热编码 还可以通过⼀些综合评价⽅法来做 常见的 熵权法+Topsis结合、层次分析法等等 难⼀点可以⽤决策表属性约简等⽅法 · 从 ⾓度反映对模型进⾏评价——exm? 3⽹评⽂本的有效性分析 初步感觉是 数据清洗,但这⾥好像是 做⼀个关于垃圾评论的筛选、删除的模型。 就⽐如我们逛淘宝的时候,淘宝社区会⾃动帮我屏蔽掉⼀些⽆⽤的评论,给到消费者有效评论 主要涉及:⽂本去重 这⾥可以基于⽂本之间的相似度计算,包括编辑距离去重,simhash算法去重等,但是也会去除⼀些相近的表达,可 能会误删。推荐使⽤⽐较删除法 4景区及酒店的特⾊分析 感觉好像是有点像⽤户画像(Profile)⼀样 将景点和酒店按⾼中低三个层次 以前做过,感觉上可以⽤基于⾼斯云理论模型的K-means聚类⽅法。当然做⽤户画像的⽅法有很多种,供选择的也有很多【】 但是!这⾥有感觉有点多余了? 前⾯不是有综合评价模型?是否可以取综合得分,按照等级5分划分为三个等级?按照不同等级,分别对5个维度进⾏衡量,从⽽得到不同 等级的特⾊?下对策建议等。。。 疑惑点 这个评论时间没想到怎么⽤? 具体的算法还没有落实到实处,只是具体有⼀了⼀个构思 欢迎留⾔交流!⼀起进步

文档评论(0)

千帆起航 + 关注
实名认证
文档贡献者

走过路过,不要错过!

1亿VIP精品文档

相关文档