- 12
- 0
- 约8.91千字
- 约 54页
- 2019-07-09 发布于广东
- 举报
* 计算机文件系统被组织为层次结构,它有一个根目录。在根目录下包括很多子目录的分支,而子目录下面可能又包含着其他的子目录。Unix树状结构有一个根目录,用/表示 * * * * * * * * * * * * * * * * * * * * * * 从前面一些章节中我们已经了解到有很多软件可应用于生物信息学,尽管可能已有人编制出了我们需要的软件但我们还是时常会碰到最好是自己解决问题的时候。在生物信息学中,这常常意味着自己编写从海量数据中提取出恰恰是需要的信息的程序 * * * 正则表达式 ——sed与awk的基础 正则表达式是一些特殊或不很特殊的字符串模式的集合。 字符集包括:普通字符集和元字符集(通配符) 普通字符集:大小写字母、数字、空格、下划线 ^ 行首 $ 行尾 * 一个单字符后紧跟*,匹配0个或多个此单字符 [ ] 匹配[ ]内字符,可以是一个单字符,也可以是字符序列。 可以使用”-“来表示[ ]内范围,如[1-5]等价于[1,2,3,4,5]。 \ 屏蔽一个元字符的特殊含义,如\$表示字符$,而不表示匹配行尾。 . 匹配任意单字符 几个常见的例子: 显示可执行的文件:ls –l | grep …x...x..x 不包括文件夹:ls -l|grep \-..x..x..x 只显示文件夹:ls –l | grep ^d 匹配所有的空行:^$ 匹配所有的单词:[A-Z a-z]* 匹配任一非字母型字符:[^A-Z a-z] 包含八个字符的行:^……..$(8个.) Sed命令 命令格式 sed ‘/pattern/ action’ files pattern: 正则表达式 action: 操作,包括p、d、s 示例: 打印行:sed –n ‘/ 0\.[0-9][0-9]$/p’ fruit_prices.txt 删除行:sed ‘/^[Mm]ango/d’ fruit_prices.txt 执行替换/pattern1/s/pattern2/pattern3/g: sed ‘s/paech/peach/g fruit_prices.txt’ 使用多重sed sed –e ‘cmd1’……-e ’cmdN’ files: sed –e ‘s/paech/peach/’ –e ‘s/ *[0-9][0-9]\.[0-9][0-9]$/\$/’ fruit_prices.txt 在管道中使用sed awk命令 命令格式 awk ‘/pattern/ {actions}’ files 示例: 字段编辑:awk –F: ‘{ print $1,$3}’ inputfiles 或:awk –F: ‘{ printf “%s is %s\n”,$1,$3}’ inputfiles 执行指定模式的操作: awk ‘/ *\$[1-9][0-9]*\.[0-9][0-9] */ {print $0; next} /*\$0\.[0-9][0-9] */ {print $0}’ fruit_prices.txt 比较操作符:、、=、=、==、!=、value ~ /pattern/、value !~ /pattern/ (相关:、||) awk ‘($2 ~ /^\$[1-9][0-9]*\.[0-9][0-9]$/) ($3 75)’ { printf “……”}’ input_f 利用管道符将标准输入作为输入 如果记不住命令的用法 查看帮助文档: man 用法:man command 为什么要学习编程? 许多宣称自己在做生物信息学的研究者使用他人提供的工具,且从不编程 那么,研究生物信息学是否需要编程? 太复杂了,学不会? 什么是Perl Practical Extraction and Report Language — 实用提取报表语言 为什么选择Perl 1.脚本语言,与PHP,Python同类 2.不需要编译器,直接运行 3.强大的文本处理能力 4.简单易学容易掌握 5.强大的正则表达式功能 6.胶水语言 缺点:代码执行速度时间偏慢,约为C语言的五倍 如何获得Perl Windows环境:ActivePerl 安装:直接双击安装程序图标 Linux:默认安装 如何运行perl Windows命令行基本目录 1. cd , 进入目录 cd .. 进入上一层目录 2.. C: D: E: …改变盘符,进入其他硬盘分区 3. dir 察看目录中的文件内容 4. cls 清除屏幕 进入Perl的安装目录 一个简单的例子 一个生物信息学的例子 一串序列中查找是否存在非DNA字符
原创力文档

文档评论(0)