- 1、本文档共7页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
无重复投影数据库扫描的序列模式挖掘算法.pdf
计 算 机 研 究 与 发 展
ISSN 1000 1239!CN 11 1777!TP
Journal of Com
p
uter Research and Develo
p
ment 44
(
1
):
126132
,
2007
收稿日期:
2005 11 12
;修回日期:
2006 07 27
基金项目:国家自然科学基金项目()
无重复投影数据库扫描的序列模式挖掘算法
张 坤 朱扬勇
(复旦大学计算机与信息技术系 上海
200433
)
(
042021150#f udan. edu. cn
)
Se
I
uence pattern mini n
g
Wit hout du
p
licate pro
j
ect database Scan
zhan
g
Kun and zhu Yan
gy
on
g
(
De
P
art ment o
f
Com
P
utin
g
and in
f
or mation technolo
gy
,
Fudan unioersit
y
,
Shan
g
hai 200433
)
Abstract Se
C
uence
p
attern mi ni n
g
has broad a
pp
lications i n t he anal
y
sis of Web click streams
,
t he
p
rediction of disasters and t he
p
attern discover
y
of DNAand
p
rotei n se
C
uences. Prefi xS
p
an
,
which is based
on fre
C
uent
p
attern
g
rowth a
pp
roach
,
is currentl
y
one of t he f astest al
g
orit hms towards t his tar
g
et.
However
,
Prefi xS
p
an will
p
roduce hu
g
e amount of du
p
licated
p
ro
j
ect databases i n mi ni n
g
dense data sets
and lon
g
se
C
uence
p
atterns. I n order to overcome this drawback
,
a random al
g
orit hm named SPMDS is
p
ro
p
osed. The al
g
orit hm avoi ds scanni n
g
du
p
licated
p
ro
j
ect databases b
y
checki n
g
evi dences com
p
uted b
y
exercisi n
g
one wa
y
hash f unction such as MD5 to
p
seudo
p
ro
j
ections of
p
ro
j
ect databases
,
and also i m
p
roves
its
p
erf or mance b
y
si m
p
lif
y
i n
g
t he search i n t he
p
ro
j
ect tree usi n
g
some necessar
y
conditions. Both
ex
p
eri ments and anal
y
ses show that SPMDSis better t han Prefi xS
p
an.
Ke
y
words se
C
uence
p
attern mi ni n
g
;
p
ro
j
ect database
;
p
refi x tree
;
one wa
y
Hash f unction
摘 要 序列模式挖掘在
Web
点击流分析、自然灾害预测、
DNA
和蛋白质序列模式发现等领域有着广
泛应用
.
基于频繁模式增长的
Prefi xS
p
an
是目前性能最好的序列模式挖掘算法之一
.
然而在密数据集
和长序列模式挖掘过程中会出现大量的重复投影数据库,使得这类算法性能下降
.
算法
SPMDS
通过对
投影数据库的伪投影做单项杂凑函数,如
MD5
等,检查是否存在重复的投影数据库,避免大量重复数
据库的扫描,并采用一些必要条件简化投影数据库的搜索,进而提高算法的性能
.
实验和分析都表明
SPMDS
性能优于
Prefi xS
p
an.
关键词 序列模式挖掘;投影数据库;前缀树;单向杂凑函数
中图法分类号
TP311
A
g
rawal
和
Sri kant
不仅是序列模式挖掘概念
的奠基人,而且还在文献[
1
]中提出了
A
p
riori All
,
A
p
riori S
文档评论(0)