烟草cDNA文库序列分析和管理系统软件的开发(图)

|idpi
摘 要 通常在构建烟草cDNA文库的过程中,往往需要处理大量DNA序列的测序结果,并且根据结果进行相关的序列分析和管理。开发相应的管理分析软件,直接读取相应的测序报告文件,将结果储存于数据库当中,并且使用相应的工具进行剪切分析。该软件通过对序列的直接管理和辅助分析,提高了整个实验过程的效率。

  关键词 烟草 cDNA文库 生物信息 核酸序列数据库

  本研究受云南省烟草公司科技开发项目[03A01]资助。

  通过使用抑制性扣减杂交技术(Suppressor Subtractive hybridization,SSH)得到构建了包括云烟85在内的抑制性差减杂交文库。将得到的cDNA片断序列进行测序后,需要对序列本身进行分析,包括剪切、分析和比对。本软件的设计旨在对得到的cDNA文库中的若干序列进行管理,并且进行相应的辅助分析。

  1 序列分析和管理系统的需求分析

  1.1 系统的设计目的

  主要是对建立的cDNA文库本身的序列在计算机内进行方便的管理,并且能够对每条序列进行辅助分析。

  1.2 本系统主要实现的基本功能:

  1.2.1 cDNA文库组的管理

  主要是包括cDNA序列的分类管理。通过对数据库内的DNA序列按照不同的实验进行分组,本系统可以储存和管理不同实验下构建的cDNA文库,并且可以存储相关试验的信息,以便查阅和参考。对于文库组管理的主要功能是可以添加修改组的名称和内容。

  1.2.2 cDNA序列的管理功能

  对于cDNA序列的管理主要包括对于数据库中的序列和相应的信息进行添加、编辑、删除和查询。

  在添加功能上,既可以人工输入相应的序列,又可以直接从测序文件中直接读取序列数据,而且具有批量读取序列的功能。通过对编辑功能的实验可以修改序列本身已经相应的信息。通过删除功能可以去除不必要的序列。通过各种条件可以查询到相关的序列。

  1.2.3 序列的分析功能

  在对序列进行分析过的过程主要实现以下几个方面的功能:

  (1)根据相应的引物自动剪切序列:通过给出序列首尾连接的两条引物,可以定位引物之间所测的cDNA序列。并且可以由此判断该序列是引物的正链或是互补链。

  (2)进行远程的blast。在对序列进行分析的时候,在NCBI进行blast是必要的,本系统将自动提交序列到远程的NCBI核酸数据库进行比对,并获得比对报告。

  (3)关于相应ABI测序文件图谱的分析。通过对ABI文件的解析,获得相应的测序图像,根据图像进行分析,由此对所测序列进行分析。

  1.2.4 其他功能

  主要包括序列本身的辅助编辑功能,即包括直接的定位查找,显示出该条序列的大小,查看该序列的互补链,查找某段序列的位置,还有序列的导出功能,可以将相应所选的序列批量生成文本文件。

  1.2.5 数据库的设计

  数据库的设计主要包括实验组表和序列表和两个部分。其中实验组表主要存储有关同一组cDNA文库的相关信息,包括改组实验的名称、内容、相关人员等。序列表则是储存相应的DNA序列的信息,主要包括序列本身已经相关的分析结果,包括blast结果以及测序文件的内容。

  2 序列分析和管理系统的开发原理

  2.1 系统特点及开发环境

  本系统主要采用的是微软公司的.NET技术构架。微软的.NET构架是新一代的计算机编程语言,采用.NET作为软件的开发环境,不仅可以使其能拓展强大的网络功能,而且在面向对象编程、数据库处理、多层应用程序开发等都提供了非常重要的特性,使得.NET成为拓展功能更为强大的语言,同时.NET的平台为软件的开发和部署提供了强大功能,包括程序设计语言和平台的无关性。因为.NET的这些特点,使得Visual Basic.NET成为本系统的主要开发语言。

  以下就是本系统所采用的开发平台:

  开发语言:Visual Basic.NET

  数据库的连接:AOD.NET

  数据库:access

  2.2 ADO.NET访问数据库的原理

  与数据库相连,ADO.NET提供了如下3种方式:通过ODBC相连;
通过OLEDB相连;
直接与数据库相连。3种方式由于应用层次的差异,使得效率由低到高,独立性由高到低。对于相连数据库的数据处理,也有2种方式,一种是通过DataSet来隔离异构的数据源,另一种是以流方式从数据源读取(DataReader方式)。传统的应用程序是通过先建立到数据库的连接,在程序的整个运行过程中维护连接的方式来设计的。ADO.NET的另一个创新是引入了数据集(Dataset)。一个数据集是内存中提供数据关系图的高速缓冲区。数据集对数据源一无所知,它们可以由程序或通过从数据仓库中调入数据而被生成、填充。不论数据从何处获取,数据集都是通过使用同样的程序模板而被操作的,并且它使用相同的潜在的数据缓冲区。

  3 系统的具体功能设计

  烟草基因序列数据库管理系统主要通过四个大的功能模块实现的,包括:实验组的管理模块、序列的管理模块、辅助编辑模块、辅助分析模块以及系统维护模块。
  

表1 系统硬件要求


  3.1 本系统的运行环境要求

  本系统的硬件要求如表1所示:

  操作系统:可在Windows2000、NT4.0、Me和Windows XP环境下运行。

  环境要求:Microsoft NET Framework

  3.2 实验组的管理模块的实现

  实验组模块包括添加、编辑、查询功能的实现。

  3.2.1 实验组查询功能的实现

  打开实验组的索引窗口,可以显示所有实验组的列表,已经当前列表中指针所指记录的详细信息。通过在模糊窗口中打入需要查询的内容,可以在数据库内进行全文搜索,在列表中显示出符合条件的记录。当指针选到某一条记录的时候,下面窗口的区域会自动显示出该条记录的详细信息。同时在通过左边的菜单可以实现相应的操作,包括对该实验组内的序列进行查询,为该实验组添加新的序列和删除相应的序列(如图1)。



  图1


  3.2.2 实验组的添加、编辑功能

  对于实验组的内容是进行手工添加的,打开手工添加窗口后按照表单内容进行填写,点击确定按钮便可将内容保存到数据当中。

  在实验组的列表中选择好记录,点击左边的命令菜单的删除按钮可以将该条实验组的内容删除。点击编辑命令或者直接双击所要选择的记录,打开编辑窗口,直接对实验组的内容进行编辑(如图2)。

  3.3 序列管理模块的实现

  与实验组管理模块一样,主要是实现对于DNA序列的查询和编辑功能。

  3.3.1 序列的查询功能的实现

  打开序列的查询窗口,可以显示所有数据库内保存的序列列表,而窗口的下面部分则是序列的详细内容,包括:序列的名称编号、原始序列、修改后的序列、ABI图像以及保存的blast结果。通过左边的命令条的查询命令可以按不同的条件查询相应的序列。包括模糊查询、按组查询、按照序列的长度查询等。

  可以单独或者批量选择序列,并且对选择的序列进行相应的操作(如图3)。

  3.3.2 编辑模块的实现

  在序列列表中选定相应的序列后,可进行相应的操作,包括删除、编辑。点击编辑菜单或者双击之后,可进行相应的编辑。

  关于序列的添加主要可以实现手工的逐条添加,或者从批量选定的测序报告中进行读取添加,并自动把测序文件的文件名作为序列编号,对序列进行识别。如果设定了前后引物,在进行添加的过程,本系统能够自动剪切获得引物间的序列。导入的文件有两种格式,一种是纯文本的序列文件或者是ABI测序报告文件(如图4)。

  3.4 辅助编辑模块的实现

  辅助编辑模块,主要包括核酸序列编辑器和ABI文件分析器两个功能的实现。

  3.4.1 核酸序列编辑器的功能

  核酸编辑器有两个文本编辑器,上面的文本编辑主要保存和现实最初的原始序列,而修改后的序列则显示和保存在下面的编辑框里。在核算序列编辑器中可以很方便的对DNA序列进行各种分析操作。主要包括几个方面的功能:

  (1)从虚列文件中导人序列,在设定好引物的情况下,对原始序列进行剪切,并在下面的编辑框内实现剪切后的序列,每个序列框都能显示序列的长度。

  (2)序列本身可以进行定位查找的分析,也可以按照一定格式显示序列的内容。

  (3)可以随时查看任一文本框中序列的互补序列,并且将该序列保存到文件当中。

  3.4.2 ABI文件分析器的功能实现



  图2




  图3




  图4




  图5


  如图5所示,打开ABI测序文件后,测序文件的图像在右上部分。右下则是从测序文件中读出来序列。左边主要是图像上面指针运动的参数可查找序列的对话框,主要功能包括:

  (1)可以查找某一段序列,并且进行定位,在设定好开始和末尾的位置可以从中间切下一段序列。



  图6


  (2)根据设定的引物进行剪切,并且可以在图像上对引物进行定位。

  (3)可以导出序列文本和图像文件,存储为位图格式。

  (4)可以打开和读取其他的ABI测序文件。

  3.5 辅助分析模块

  本系统的辅助分析模块主要可以将选定的序列提交到远程的NCBI进行blast,blast的结果可以按照文本或者html格式文件进行保存。在分析blast结果的过程中可以根据GENBANK的某条基因序列的ID号直接查询到关于该条基因的详细信息(如图6)。本系统可以自动批量对若干序列进行比对,也可以单独为所选的序列进行比对。

  其他的分析功能就是实现对序列的条件查询。包括全文的模糊检索,按照序列的长度进行检索能功能。并且可以将所选的序列导出,生成相应的文本文件。

  3.6 系统维护模块

  主要是包括数据库文件的设定,备份和重置。

  4 本系统展望

  今后对本系统的进一步开发和完善过程中,主要围绕下面几个方向进行:

  第一,加强其他的序列分析功能,包括对于DNA序列的翻译、酶切位点的识别、酶切位点的作图、质粒绘图等功能。

  第二,增加本地的序列比较和比对的功能。

  第三,考虑增加蛋白质的存储和分析模块。

  第四,考虑采用BS模式进行本系统的构建,以达到数据的同步。

  参考文献:

  1 Billy.Hollis, Rockford.Lhotka.VB.NET程序设计教程.清华大学出版社,2001年10月

  2 H.M.Deitel,P.J.Deitel,T.R.Nieto,C.H.yaeger.Visual Basic.NET高级程序员指南.清华大学出版社

  3 黄嘉辉.Visual Basic.NET网络程序设计—TCP/IP与Internet Programming.清华大学出版社

  4 郝柏林,张淑誉.生物信息学手册.上海科学技术出版社

  5 张春霆.生物信息学的现状与展望.天津大学生命科学与工程研究院

  Developing Software for Managing and Analysizing Tobacco CDNA Sequence

  Huang Kuake1 Li Wenzheng2 Dong Xia11 Deng Yunlong2

  (1 Yunnan Agricultural University Kunming 650201)

  (2 Yunnan Tobacco Research Institute Yuxi 653100)

  Abstract: In the process of constructing the tobacco DNA library, it often needs to process the massive DNA sequencing results, and accordingly carries on the sequence analysis and the management. Develops the software for the management and analysis, which can easily read then sequencing report files, save the result into the database, and use the corresponding tools to cut and analyze. Through the direct management and assistance analysis of the sequence, it enhances the efficiency of the entire experiment.

  Keywords: Tobacco cDNA library Bio-information Nucleic acids sequence database


  

责任编辑:王海娟


推荐访问:管理系统 文库 序列 烟草 分析