生物医学文本挖掘及其应用概要1.ppt

生物医学文本挖掘及其应用概要1

生物医学文本挖掘及其应用 例子:二者关系 进行性多灶性白质脑病(progressive multifocal leukoencephalopathy,PML) 抗体antibodies Monoclonal antibodies,efalizumab(依法珠单克隆抗体) HGNC database of human gene names HUGO Gene Nomenclature Committee / 网上在线检索的基因名称信息 下载的基因名称信息 NER的原理 关联度 假设有t1和t2两个词共现,最简单的信度指标就是含有这两个词的文章数c(t1t2),但是要标准化,去掉两个词各自出现频次对共现次数的影响。 点间互信息 p为文章数除以文章总数。 关系抽取:共现 GoDisease:/ 输入‘‘leukoencephalopathy, progressive multifocal’’[mh] 返回结果: 所有提及PML的文摘中的基因。 出现次数越多的基因,越可能与PML有关联。如果某基因在PML中不成比例地高于其他疾病,则该基因可能与PML有特殊关系。 关系抽取:确切关系 明确描述的关系:比共现更好的证据。 例如: ‘‘We describe a PML in a 67-year-old woman with a destructive

文档评论(0)

1亿VIP精品文档

相关文档