- 12
- 0
- 约7.74千字
- 约 51页
- 2017-09-06 发布于天津
- 举报
utilizing dependency language models for dependency - 苏州大学
* * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * 文档表示成向量 每篇文档表示成一个基于tfidf权重的实值向量 ∈ R|V|. 于是,我们有一个 |V|维实值空间 空间的每一维都对应词项 文档都是该空间下的一个点或者向量 极高维向量:对于Web搜索引擎,空间会上千万维 对每个向量来说又非常稀疏,大部分都是0 * * 查询看成向量 每一个查询也可以表示为一个高维稀疏向量。注意,为了简化问题,只考虑tf值,而不考虑idf 如:good - 1 movie-2 查询对应的向量不需要归一化(为什么自己思考) * * 向量空间下相似度的形式化定义 先考虑一下两个点之间的距离倒数 一种方法是采用欧氏距离 但是,欧氏距离不是一种好的选择,这是因为欧氏距离对向量长度很敏感 * * 欧氏距离不好的例子 尽管查询q和文档d2的词项分布非常相似,但是采用欧氏距离计算它们对应向量之间的距离非常大。. Questions about basic vector space setup? * * 采用夹角而不是距离来计算 将文档按照其向量和查询向量的夹角大小来排序 假想实验:将文档 d 复制一份加在自身末尾得到文档d′. d′ 是d的两倍 很显然,从语义上看, d 和 d′ 具有相同的内容 两者之间的夹角为0,代表它们之间具有
您可能关注的文档
- t460 低相噪超高稳时间频率基准.pdf
- szimpatikus aktivitás.ppt
- tbm掘进前方不良地质与岩体参数的综合获取方法 - 山东大学学报 .pdf
- tbm 刀盘设计若干关键技术 - 中国机械工程.pdf
- tc型电量传感器.doc
- telephoto-稳健化设计.pdf
- techtargetジャパン 登录メンバープロファイル(2017年6月时点).pdf
- tempo 大数据分析平台介绍.pdf
- the patent specification can form a dictionary of its own 专利 - ip key.ppt
- thorpe-ingold 效应及其在有机成环反应中的应用 - researchgate.pdf
最近下载
- 矩阵分析在通信领域的应用论文.docx VIP
- AAC板材施工方案.docx VIP
- JTT1495-2024公路水运危险性较大工程安全专项施工方案审查规程.pdf VIP
- 地方建筑图集 甘肃甘12G2填充墙与柱、剪力墙及梁板构造.docx VIP
- 2025年6月浙江省普通高校招生选考科目考试化学试题与答案.docx VIP
- 郑州市2026届高三(二模)化学试卷(含答案).pdf
- 智能机器人技术--巡检机器人.pptx VIP
- 大学本科《社会主义发展史》课程期末考试试题库完整版2024.docx VIP
- 2020年印尼劳工法-(中文版).pdf VIP
- 丙烯酸乙酯-国际化学品安全卡.pdf VIP
原创力文档

文档评论(0)