基于GPU多模式网页精确匹配系统_用户使用手册word格式word格式.docVIP

下载本文档

2
0
约3.42千字
约 12页
2018-06-20 发布于浙江
举报
版权申诉

基于GPU多模式网页精确匹配系统_用户使用手册word格式word格式.doc

1、本文档共12页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于GPU多模式网页精确匹配系统_用户使用手册word格式word格式

基于GPU的多关键字网页精确匹配系统用户使用手册作者：彭江锋、施少怀、漆舒汉、杨植群指导教师：陈虎华南理工大学 2009年7月20日文档目录一、系统概述 3 1.1 系统运行流程 3 1.2 运行光盘说明 3 二、爬虫程序的使用 5 2.1 python-2.54的安装 5 2.2 修改脚本程序 6 2.3 运行网络爬虫 6 三、关键字预处理程序 8 四、并行匹配程序 10 一、系统概述 1.1 系统运行流程基于GPU的多关键字网页精确匹配系统包括：网页爬虫程序、关键字预处理程序和基于GPU的匹配程序等三个部分。系统运行的基本流程如图1-1所示。图1-1 系统运行的基本流程整个系统的运行过程分为四个步骤： 1、运行爬虫程序，从Internet上获取网页，并存储在html目录中。 2、准备好待匹配关键字列表文件，运行关键字预处理程序，并将预处理的结果存储在特定文件中。 3、运行并行匹配程序，结果将存储在特定的result.html文件中。 4、用户使用浏览器浏览result.html，查阅匹配结果。 1.2 运行光盘说明运行光盘中包含三个目录和三份文档，如图1-2所示：（注意：由于执行程序有写入操作，执行程序前请先将光盘内容拷贝至硬盘文件夹下，如D:\submit）图1-2 运行光盘信息 “bin”目录：为“基于GPU的多关键字网页精确匹配系统”可执行程序和source，包含“source”、“爬虫程序”、“关键字预处理程序”和“并行匹配程序”。如图1-3所示：图1-3 “bin”目录信息 “src”目录：为“基于GPU的多关键字网页精确匹配系统”所有源程序和资源文件source(包含pattern文件和html文件等)。源程序包括：“爬虫程序”、“关键字预处理程序”和“并行匹配程序”。如图1-4所示：图1-4 “src”目录信息 “CPU_测试用例”目录：包含CPU串行字符串匹配软件nrgrep、nrgrep使用说明及其测试用例。 doc 文档： “基于GPU的多模式网页精确匹配系统_设计和测试报告.doc”，该文档详细说明该系统的设计实现方法和测试结果以及性能分析等内容。 “基于GPU的多模式网页精确匹配系统_用户使用手册.doc”，该文档详细说明该系统的使用方法。 “intro.doc”，该文档为CUDA比赛官方要求填写文档。二、爬虫程序的使用爬虫程序是基于Python的脚本程序。整个运行过程包括以下步骤： 1、安装光盘中“爬虫”目录中的python－2.54安装程序，将此目录中的spider.py文件拷贝到python的目录中； 2、根据需要修改spider.py中的关键代码以指明要搜索的URL和存储的目录； 3、运行spider.py收集网页内容。 2.1 python-2.54的安装爬虫目录下有三个文件：python-2.54安装程序、说明文本Readme.txt和爬虫脚本程序spider.py。如图2-1所示。图2-1 爬虫目录下的文件双击python-2.54，进入安装界面，并设置安装目录（这里设置为d:\Python25\）,如图2-2所示。图2-2 设置python的安装目录 Python安装过程的其他对话框按缺省配置即可。在安装完成后，将“爬虫”目录下的spider.py拷贝到安装目录中（这里为d:\Python25\）。完成后的目录内容如图2-3所示。图2-3 Python安装后的目录内容（图中红圈标识为spider.py脚本程序） 2.2 修改脚本程序使用任意文本编辑器修改spider.py程序中的第72和73行。如图2-4所示。图2-4 修改spider.py程序其中第72行为网页收集后的存储目录（这里设置为D:\work\text_GPU\test_sample1\html目录），第73行为需要收集的网页URL（这里设置为/）。修改后保存，并退出文本编辑器。 2.3 运行网络爬虫在命令行模式下，进入d:\Python25\目录，并运行spider.py程序，如图2-5所示。图2-5 运行网络爬虫图2-6 网络爬虫程序运行的典型输出【注意】该网络爬虫程序不能自动停止，需要通过点击窗口关闭按钮方式停止。在爬虫程序运行结束后，可以发现网页存储目录下（这里为D:\work\text_GPU\test_sample1\html）已经收集了大量的html文件。如图2-7所示。图2-7 网络爬虫收集到的页面三、关键字预处理程序在“关键字预处理”目录中包含的preprocPatterns_win.exe文件为关键字预处理程序。双击运行该程序，将提示输入关键字集合文本，输入关键字文件路径和文件名。如图3-1：图3-1 其中pattern_loca