- 1、本文档共12页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于GPU多模式网页精确匹配系统_用户使用手册word格式word格式
基于GPU的多关键字网页精确匹配系统
用户使用手册
作者:彭江锋、施少怀、漆舒汉、杨植群
指导教师:陈虎
华南理工大学
2009年7月20日
文档目录
一、系统概述 3
1.1 系统运行流程 3
1.2 运行光盘说明 3
二、爬虫程序的使用 5
2.1 python-2.54的安装 5
2.2 修改脚本程序 6
2.3 运行网络爬虫 6
三、关键字预处理程序 8
四、并行匹配程序 10
一、系统概述
1.1 系统运行流程
基于GPU的多关键字网页精确匹配系统包括:网页爬虫程序、关键字预处理程序和基于GPU的匹配程序等三个部分。系统运行的基本流程如图1-1所示。
图1-1 系统运行的基本流程
整个系统的运行过程分为四个步骤:
1、运行爬虫程序,从Internet上获取网页,并存储在html目录中。
2、准备好待匹配关键字列表文件,运行关键字预处理程序,并将预处理的结果存储在特定文件中。
3、运行并行匹配程序,结果将存储在特定的result.html文件中。
4、用户使用浏览器浏览result.html,查阅匹配结果。
1.2 运行光盘说明
运行光盘中包含三个目录和三份文档,如图1-2所示:(注意:由于执行程序有写入操作,执行程序前请先将光盘内容拷贝至硬盘文件夹下,如D:\submit)
图1-2 运行光盘信息
“bin”目录:为“基于GPU的多关键字网页精确匹配系统”可执行程序和source,包含“source”、“爬虫程序”、“关键字预处理程序”和“并行匹配程序”。如图1-3所示:
图1-3 “bin”目录信息
“src”目录:为“基于GPU的多关键字网页精确匹配系统”所有源程序和资源文件source(包含pattern文件和html文件等)。源程序包括:“爬虫程序”、“关键字预处理程序”和“并行匹配程序”。如图1-4所示:
图1-4 “src”目录信息
“CPU_测试用例”目录: 包含CPU串行字符串匹配软件nrgrep、nrgrep使用说明及其测试用例。
doc 文档:
“基于GPU的多模式网页精确匹配系统_设计和测试报告.doc”,该文档详细说明该系统的设计实现方法和测试结果以及性能分析等内容。
“基于GPU的多模式网页精确匹配系统_用户使用手册.doc”,该文档详细说明该系统的使用方法。
“intro.doc”,该文档为CUDA比赛官方要求填写文档。
二、爬虫程序的使用
爬虫程序是基于Python的脚本程序。整个运行过程包括以下步骤:
1、安装光盘中“爬虫”目录中的python-2.54安装程序,将此目录中的spider.py文件拷贝到python的目录中;
2、根据需要修改spider.py中的关键代码以指明要搜索的URL和存储的目录;
3、运行spider.py收集网页内容。
2.1 python-2.54的安装
爬虫目录下有三个文件:python-2.54安装程序、说明文本Readme.txt和爬虫脚本程序spider.py。如图2-1所示。
图2-1 爬虫目录下的文件
双击python-2.54,进入安装界面,并设置安装目录(这里设置为d:\Python25\),如图2-2所示。
图2-2 设置python的安装目录
Python安装过程的其他对话框按缺省配置即可。在安装完成后,将“爬虫”目录下的spider.py拷贝到安装目录中(这里为d:\Python25\)。完成后的目录内容如图2-3所示。
图2-3 Python安装后的目录内容(图中红圈标识为spider.py脚本程序)
2.2 修改脚本程序
使用任意文本编辑器修改spider.py程序中的第72和73行。如图2-4所示。
图2-4 修改spider.py程序
其中第72行为网页收集后的存储目录(这里设置为D:\work\text_GPU\test_sample1\html目录),第73行为需要收集的网页URL(这里设置为/)。修改后保存,并退出文本编辑器。
2.3 运行网络爬虫
在命令行模式下,进入d:\Python25\目录,并运行spider.py程序,如图2-5所示。
图2-5 运行网络爬虫
图2-6 网络爬虫程序运行的典型输出
【注意】该网络爬虫程序不能自动停止,需要通过点击窗口关闭按钮方式停止。
在爬虫程序运行结束后,可以发现网页存储目录下(这里为D:\work\text_GPU\test_sample1\html)已经收集了大量的html文件。如图2-7所示。
图2-7 网络爬虫收集到的页面
三、关键字预处理程序
在“关键字预处理”目录中包含的preprocPatterns_win.exe文件为关键字预处理程序。双击运行该程序,将提示输入关键字集合文本,输入关键字文件路径和文件名。如图3-1:
图3-1
其中pattern_loca
您可能关注的文档
- 地下车库防施工方案.doc
- 地下车库深基坑土方挖技术交底.docx
- 地下连续墙施注意事项.doc
- 地下连续作业指导书.doc
- 地下连续墙施工艺标准.doc
- 地下连续施工方案.doc
- 地下连续墙项检测方案.doc
- 地下通道程施工方案.doc
- 地下防水工监理细则.doc
- 地下连续钢筋笼吊装方案.doc
- 2025年烟台市正大城市建设发展有限公司招聘工作人员12名笔试参考题库附带答案详解.doc
- 2025年衢州市属国企公开招聘工作人员笔试参考题库附带答案详解.doc
- 2025中铁四局集团有限公司法律合规部公开招聘1人笔试参考题库附带答案详解.docx
- 2025中国建筑股份有限公司岗位招聘【人力资源部(干部人事部)】笔试参考题库附带答案详解.docx
- 2025年滁州定远县中盐东兴盐化股份有限公司招聘2人笔试参考题库附带答案详解.doc
- DB1331T109-2025雄安新区建设工程抗震设防标准(963.84KB)(1).pdf
- 2025辽宁省能源控股集团所属抚矿集团招聘76人笔试参考题库附带答案详解.pdf
- 2024陕西延长石油集团华特新材料股份有限公司社会招聘8人笔试参考题库附带答案详解.pdf
- 2023内蒙古大唐国际锡林浩特矿业有限公司采煤自营专项社会招聘32人笔试参考题库附带答案详解.pdf
- 2024年12月云南大学国际合作与交流处公开招聘(1人)笔试历年典型考题(历年真题考点)解题思路附带答案详解.doc
最近下载
- 注册安全工程师中级其他安全生产专业实务(其他安全类案例)模拟试卷5.pdf VIP
- 2025低压分布式光伏入网技术规范.docx VIP
- GB生产设备安全卫生设计总则.doc VIP
- 产教融合、校企合作——黄淮学院的探索与实践.ppt VIP
- 注册安全工程师中级其他安全生产专业实务(其他安全类案例)模拟试卷9.pdf VIP
- 《呼吸防护用品 自吸过滤式防颗粒物呼吸器》GB 2626-2019-2020.7.1.docx VIP
- 危险货物包装标志.docx VIP
- 地下水质量标准GB148482017.docx VIP
- 《心理学史教学大纲.doc VIP
- GBT-用于校准表面污染监测仪的参考源 α、β和光子发射体及编制说明.pdf VIP
文档评论(0)