- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于word2vec 及大众健康信息源的疾病关联探测
应用论文
基于Word2Vec 及大众健康信息源的疾病
关联探测
罗文馨 陈 翀 邓思艺
(北京师范大学政府管理学院 北京 100875)
摘要: 【目的 】利用Word2Vec 深度学习技术从面向大众的健康信息中寻找疾病关联, 解决非医学人士通常不了
解多种疾病之间存在的关联, 从而影响到健康信息搜寻中的全面性和有效性的问题。【方法 】由专家选取30 个
常见疾病主题, 从高质量医学新闻网站上采集对应疾病的文档, 运用Word2Vec 技术对各疾病的相关文档构造词
向量, 计算向量距离判断疾病关联。通过与专家评分的相关分析衡量判断结果的准确性。【结果 】最优情况下,
Word2Vec 得到的结果与专家评分相关系数达到 0.635。通过对比不同的算法模型、优化方法、数据规模及重要
参数对结果的影响, 发现Skip-Gram 模型结合负样本数为20 的Negative Sampling 优化方法在大规模数据集上的
实验结果最优。【局限 】疾病主题选取宽泛时, 影响Word2Vec 判断准确性, 本文的疾病主题选取粒度有待改善。
【结论 】利用Word2Vec 技术在面向大众的健康信息源中也可以探测疾病关联, 其有效性表明该技术可用于改善
大众的健康信息搜寻的个性化服务。
关键词: Word2Vec 疾病关联 非专业医学文本 健康信息 个性化
分类号: TP391 G350
业医学信息, 如高质量的健康新闻, 通过Word2Vec 深
1 引 言
度学习技术, 基于疾病相关文档探测疾病主题之间的
以往, 普通大众多从专业医学人士处获取疾病健 关联, 并与专家评判结果对比, 发现这种技术能有效
康知识。互联网的发展可以让大众更加主动地去上网 地用于疾病之间的关联探测。
搜寻自己所需的健康信息。近年来, 各种新型健康服
2 相关工作
务平台不断兴起, 这些服务多以疾病知识科普、在线
咨询为主, 极大丰富了人们获取医学信息的渠道。然 [1]
面向普通大众的健康信息服务早就引起关注 ,
而, 大众由于缺乏专门的医学知识, 并不了解疾病之 Eysenbach 明确提出了结合信息技术手段为消费者提
间复杂的关联, 例如牙周疾病可能由糖尿病引起。对 供健康信息服务, 包括分析消费者的健康信息需求,
这种关联缺乏了解会影响到大众管理自身健康、搜寻 研究并实现能为消费者提供信息的方法, 依据消费者
全面有效的医学信息。如果能通过技术手段寻找疾病 的偏好设计模型构建信息系统等[2] 。国内称这一研究
主题之间的关联, 可用于改善健康信息的个性化服务, 范畴为“用户健康信息学”。目前面向消费者的健康服
提高信息服务平台的内容组织和导航质量。由于专业 务不断涌现, 提供疾病知识科普、定制的信息推送或
医学文献使用的术语不易被大众理解, 本文使用非专 疾病问题在线咨询等, 推动人们管理自身健康, 提高
通讯作者: 陈翀, ORCID: 0000-0002-9704-1575, E-mail: chenchong@ 。
78 现代图书情报技术
总第274 期 2016 年 第9 期
大众健康信息素养。 病或主题间关系的研究有很值得深入的空间。本文将
为帮助人们更高效准确地获取健康信息, 研究人 疾病关联的发现任务转换为探测疾病相关文档的语义
员开展了很多工作, 主要分为几个方面: 关联, 利用Word2Vec(Word to Vector)技术找到与特定
(1) 调查消费者的信息查寻行为[3], 弄清他们在互 疾病关系密切的词汇, 利用这一桥梁发现疾病关联。
联
您可能关注的文档
- 基于esi 和incites 的高校潜力学科发展预测.pdf
- 基于esi、incites 数据库的中国矿业大学学科发展及预测 - 学科建设处.pdf
- 基于esi及sci e的中医药院校学科发展分析 - 中国现代中药.pdf
- 基于esm 与elint信息融合的机载辐射源识别.pdf
- 基于fpga 的usb 高速图像传输系统设计 usb high speed image .pdf
- 基于fpga 的图像光纤传输系统设计 - mipaper by lciscomtw.pdf
- 基于gbm模型的复杂机电产品故障部位频率动态分析 张根保,喻春 .doc
- 基于fpga的高速多通道实时同步采集传输系统的设计与实现.pdf
- 基于gpu的md6算法快速实现 - 北京工业大学学报.pdf
- 基于gis绿色食品基地土壤环境质量评价方法研究.pdf
- 基于zigbee技术的音频传输系统 - 哈尔滨理工大学学报.pdf
- 基于变权原理的绿色建筑决策阶段风险评价 - 武汉理工大学学报信息与 .pdf
- 基于本体的神经信息学概念及其关系研究 - 北京大学学报(医学版).pdf
- 基于标签识别技术的产品全生命周期管控验证示范平台.pdf
- 基于布卢姆理论的医学信息学新课程体系分析 - 中国中医药图书情报杂志.pdf
- 基于词频统计法的医学新闻自动受控标引 - 医学信息综合服务平台.pdf
- 基于磁场刺激的肌电信号模式识别的研究 - 控制与决策.pdf
- 基于词汇链的中文新闻网页关键词抽取方法水 - 模式识别与人工智能.pdf
- 基于磁耦合谐振式的无线电能传输系统 - 物理通报.pdf
- 基于粗糙集和证据理论的水质分析预警技术研究 - 浙江大学学报.pdf
原创力文档


文档评论(0)