- 1、本文档共60页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
希望能自动从所有回贴中找到三种最具代表性的帖子【精品-ppt】
Reports and related topics Other bbs Reports The preprocessor Homework Dec-11 Software development Request Analysis Formalize Design Coding Test result analyze Request: 希望能自动从所有回贴中找到三种最具代表性的帖子: A、最能代表当前所有回贴内容的帖子。 B、内容与其他所有回贴最不同的帖子。 C、与某预设(自设)的敏感话题最相关的回帖。 Problem Analysis —— 最能代表当前所有回贴内容的帖子 ‘代表’ 到底是什么意思? 所有回帖? 最具代表性的帖子 — 高戈,秦毅成 在帖子中随机抽取2个帖子进行DP最长公共子串匹配。 进行8n(n为帖子总数)次,这样在20%-30% 以上帖子中都出现的关键词(关键词长度要大于等于4,小于等于10)我们都基本能记录下来。然后用其中出现次数较多的20个关键词(必须满足出现次数大于等于3)对每个帖子进行匹配,并根据匹配情况算出它的权值,其中匹配权值最高的那个帖子即为最具代表性的帖子。 优点:不必分词,领域无关,自适应。算法复杂度较低。 缺点:? 测试数据1:关于研究生应聘卖猪肉岗位的新闻的回帖 运行结果: 1 最具代表性的帖子 这是中国资源的浪费,读完研究生要耗去多少人力和财力,国家和家庭要付出多少,卖猪肉小学毕业就绰绰有余了,难道非要研究生吗?一个人从小学毕业开始卖猪 肉,一年赚一万,又比在校学生少花费一万来计算,从初中到研究生毕业就是28万余元啊!说不定你研究生毕业人家就成养猪专业户或企业家了,你们研究生就是 给人家打工的,年薪10万算什么?如果一个国家投资那么多钱就是为了培养卖猪肉的 ,真是太可悲了呀! 相似度为1500左右,多次测试结果稳定 2 最不同的帖子 可能性较多,有三至四种 相似度为0到2之间,多次测试结果不稳定 测试数据2:对台检方周末加班写起诉书 陈水扁可能被求处重刑的评论。 1 最具代表性的帖子 贪污这么多钱在国际上也是前无先例啊!不判死刑能给世人交代吗?应该让陈水扁象萨达姆那样被台湾人民绞死!现在还在挺扁的绿营人士及民进党都是神经病患者,根本就没有是非观念,真是台湾的不幸啊! 其他出现结果 很不理解台湾的极少数支持陈水扁的人,陈水扁贪污这么多,在祖国大陆这样的贪污犯是要处死刑的;难道支持陈水扁的少数人是接受了陈水扁的好处?是共犯? 相似度为1200到1300,多次测试结果较为稳定 2 最不同的帖子 可能出现的结果: 特赦,为什么啊?难道法律面前,人人不平等啊。 不是可能被处以重刑,而是必须判重刑!天理难容啊! 报应啊,哈哈哈哈哈哈哈哈哈哈哈哈哈 曾经人上人,如今阶下囚。谈人生为何如此丑恶? 等等 相似度为1或0,多次测试结果非常不稳定 展望: 现在我们生成词典采用的是随机算法,对于较大规模的数据依旧是束手无策。因此,我们考虑将来可以进一步采用遗传算法进行优化,筛选出最具代表性的关键字词典。利用遗传算法可以更加有效地解决空间时间的紧张问题。 另外,对于匹配算法上来讲,我们采用的是最基础的动态规划,应该可以改进成串的最大匹配算法,这样空间和时间的复杂度都可以远远小于O(mn),大幅度地提高我们的效率。 Formalize Max common substring Keywords set + frequency Vector + class 建模:(张磊、刘邦) 对汉字的编码和其他字符的编码统一化处理。 对所有帖子组成的集合Z中所用的字Ci统计重复次数Ti。对第i个帖子,统计其中字的Ti之和,除以第i个帖子中字的个数N,相当于求一个平均频数,以此作为第i个帖子的代表全体意思程度的指数。 建立停用字库,对原帖用字进行过滤。 陈健 张海峰 叶树雄: 找关键词:在规定贴子数目以上的帖子出现过的连续字符(已编码) 把每个贴子向量化 内积运算 华连盛 、蔡斯任: 计算了每条回帖被回复的次数,特别加入了对于“顶”、“赞”、“支持”之类的回复的查找,普通回复每条算10分,包含上述字眼的每条算20分; 考虑最有代表性的回帖必须和主题贴有一定的关联,又不能完全没有自己的观点,所以设计了一个相似度的评分,如果一条帖与主题贴的相似度为30%则定义为30分,相似度为0或100%的定义为0分,其余部分呈线性。 最后将这两方面的评分相加得到最后的得分,找出得分最多的回帖即为最有代表性的。 进行过前面的处理后,考虑可以去掉一些评分较低的帖子,对剩余的帖子统计每个汉字出现的频率,找出出现频率最高的几个汉字作为关键字(去除
您可能关注的文档
- 小儿液体疗法FluidTherapy.ppt
- 小儿氨酚黄那敏颗粒[新版].ppt
- 小儿点穴按摩_【PPT课件】.ppt
- 小儿神经呼吸危重抢救PPT课件.ppt
- 小儿结核病-昆明医学院.ppt
- 小儿神经进展(郴州市儿童神经学会)..ppt
- 小儿推拿疗法的工作汇报.ppt
- 小儿脑瘫[精华].ppt
- 小儿肿瘤与麻醉[试题].ppt
- 小儿脑瘫有什么症状.ppt
- 2025年安徽工商职业学院单招职业技能测试题库带答案(典型题).docx
- 2025年洛阳科技职业学院单招职业技能测试题库带答案(新).docx
- 2025年荆门职业学院单招职业技能测试题库及答案(易错题).docx
- 2025年宣化科技职业学院单招职业技能测试题库(精练).docx
- 2025年包头职业技术学院单招职业技能测试题库带答案(新).docx
- 2025年江西工商职业技术学院单招职业技能测试题库带答案(精练).docx
- 2025年黑龙江农业经济职业学院单招职业技能测试题库精编.docx
- 2025年山东艺术设计职业学院单招职业技能测试题库带答案(基础题).docx
- 2025年陕西工商职业学院单招职业技能测试题库带答案(突破训练).docx
- 2025年承德护理职业学院单招职业技能测试题库【word】.docx
最近下载
- 第三章4节励磁控制系统调节特性和并联机组间无功分配-(一).ppt VIP
- 2024ABB PSR、PSRC、PSE和PSTX软启动器技术资料.docx
- GB50210-2001建筑装饰装修工程质量验收规范.doc VIP
- 西方古典园林——意大利埃斯特别墅庄园.ppt
- 普通物理学(第7版) 程守洙课件-chapter-11.pptx VIP
- 普通物理学(第7版) 程守洙课件-chapter-10.pptx VIP
- 我国婴幼儿呼吸道合胞病毒感染被动免疫预防专家共识解读.pptx
- 2024年上海市高职单招职业适应性测试试题及答案解析.docx
- 2024年江西电力职业技术学院单招职业技能测试题库及答案(各地真题).docx VIP
- 南京市某办公楼空调系统设计.doc VIP
文档评论(0)