中国水稻信息网 C.N.R.R.I.

水稻(Oryza sativa L.)是最重要粮食作物之一，也是世界1/2以上人口的主食，与其相关的遗传学和分子生物学研究一直倍受研究者的重视。水稻基因组（430 Mb）是禾谷类作物中最小的，且易于遗传操作并与其他禾谷类作物存在共线性，目前已成为遗传学和基因组研究的模式植物。至2002年，籼、粳稻两个亚种全基因组工作框架图的测定和粳稻基因组全长序列的测定相继完成。这不仅有利于探明水稻基因功能，而且还有利于阐明更大和更复杂的禾谷类基因组研究。水稻基因组测序的研究成功将有助于为全人类的食物安全提供保障。

1 水稻基因组测序

基因组测序涉及DNA 的大规模测序，由于目前只能采取分而治之的测序基本策略，即将基因组DNA分割成一定大小的片段，然后分别对这些片段进行测序。而遗传图和物理图可作为整个基因组测序的路标，为小片段DNA测序和重叠群构建提供了基础。

1.1 遗传图谱

自1988年McCouch等利用IR34583（籼）× Bulu Dalam（爪哇）的F₂群体构建了第一张水稻分子连锁图谱（含135 RFLP标记）以来，高密度的图谱相继产生。1991年，Tanksley等利用IRAT177（粳）/ Apura（籼）DH群体构建了第二个RFLP分子连锁图谱；Saito等也构建了一张包含347个遗传标记的分子连锁图谱。1994年Causse等构建了另一张726个RFLP标记分子连锁图谱。Kurata等构建了一张包含1384 个DNA标记的分子连锁图谱。我国的Zhu等和Zhang等所在的研究组也先后构建了一些遗传群体。近年来，随着分子遗传学的迅速发展，国际水稻基因组测序计划（International Rice Genome Sequencing Project, IRGSP）成员国以Nipponbare、Kasalath、IR64和Azucena等水稻品种为材料，构建了10个饱和的遗传图谱并与表型的标记进行了整合，以创造新的遗传资源。1998年，Harushima等构建了一张高密度水稻遗传连锁图，包含了2 275个遗传标记，覆盖水稻基因组1521.6 cM。2001年，Rice Genome Program(RGP)公布了包含3267个RFLP分子标记的水稻分子连锁图。还利用次级三体和终级三体(telotrisomics)将经典遗传图和分子遗传图中的着丝粒位置确定，修正了分子图谱的方向，把RFLP标记定位到特定的染色体臂上；Wu等构建了水稻第11和第12染色体短臂末端重复基因组区域的图谱，重复基因组区域大小是2.5 Mb，表明水稻也存在大染色体片段的重复区域。上述遗传图谱在基因定位、物理图谱的构建和基因测序中发挥了或即将发挥巨大作用。

1.2 物理图谱

已获得高密度水稻遗传连锁图，为何不能直接指导基因组计划的测序，还要绘制物理图？其主要原因是遗传图的精确性较低、分辨率有限，而物理图是对遗传图的进一步深化，并能直接应用于图位克隆技术分离目的基因。

1998年，Umehara等构建了水稻第一张物理图谱，共筛选到5701个YAC，其中2117个单一YAC分配到12条染色体上，跨度216 Mb，覆盖水稻基因组的50%。接着日本水稻基因组计划(RGP)开始将YAC重叠群（contig）分解成粘粒（cosmid）DNA克隆，构建更精细的物理图谱。2001年，RGP还构建了一个覆盖270 Mb(全基因组的63%)的YAC文库的物理图，由6 934个YAC组成，插入片段平均长度为350 kb。

由于YAC克隆不太稳定、插入DNA难以分离、转化效率低等原因，美国Clemson大学基因组研究所(Clemson University Genomics Institute，CUGI)又建成了两个BAC库，一个是由37000个HindⅢ酶切的BAC文库，插入片段平均长度为128.5 kb；另一个是有56000个克隆的Eco R Ⅰ BAC库，插入片段平均大小为120 kb，两者覆盖水稻基因组的26倍。1997年，中国科学院国家基因研究中心(National Center for Gene Research, NCGR)发表了由指纹锚标法策略建成的含565个分子标记且覆盖率较高的水稻广陆矮4号基因组BAC库物理图。

2001年，RGP为了克服YAC克隆的局限性，又以PAC为载体构建了水稻Nipponbare基因组文库，此文库由72 000个Sau3AⅠ酶切克隆组成，平均插入片段长120 kb，覆盖水稻基因组的16倍。RGP也对75 000个PAC克隆进行了排列，所有已定位的可用标记用于鉴定和锚定PAC克隆。这些克隆分成3个池，以EST衍生的特异引物进行PCR排序，一个EST共有的几个PAC克隆被认为是重叠的，它们归为一个克隆群，这个方法可以解除由于杂交探针属于多基因家族而带来的困难。

1.3 基因组测序

国际水稻基因组测序计划(IRGSP)由1997年在新加坡举行的植物分子生物学会议发起；1998年，中国、日本、美国和韩国的代表共同草拟了资源共享等组织议程；2000年在美国的C1emson召开了协调会，对12条染色体测序任务进行了分工（表1）。测序工作分为测序、填补缺口和最后完成三个阶段。对于最后测序结果的标准，IRGSP规定为误差率低于1/10000(精度99.99%)。第二阶段是测序工作的瓶颈，测序阶段留下的缺口需要补平，水稻特殊序列组成(易于形成二级结构和GC富集区)和重复序列造成的低质量测序结果需要改进。通过各研究机构和私营公司的共同努力，IRGSP已于2002年12月宣布，利用克隆连克隆（逐步克隆）测定法(clone by clone sequencing)，提前3年完成了水稻12条染色体的碱基测序工作。日本在其中发挥着主导作用，并最先以99.99%的精度完成了最长的第1条染色体的测序工作。此前，孟山都公司同意将已构建的水稻基因组序列草图（包括已构建物理图的3416个BAC和125619个STC序列）转让给IRGSP。RGP对原有的物理图进行延伸及弥补物理图上的空缺，大大加速了水稻基因组测序工作进程。中国科学家完成了第4染色体全长序列的精确测定。第1、4染色体的序列和结构已同时发表在2002年11月《Nature》第420期第312～320页。由美国Clemson大学负责的第10染色体的全长序列也已发表在2003年9月的《Science》上。其余各条染色体的测序结果也将陆续发表。

另外，中国科学院基因组信息中心暨北京华大基因研究中心（简称基因信息中心）等12家单位，于1998年至2001年利用全基因组霰弹法(whole genome shotgun sequencing, WGS)，构建了籼稻93-11基因组工作框架图和低覆盖率的培矮64S草图，并最先向全世界公布了水稻93-11全基因组框架图。随后，美国先正达（Syngenta）公司也完成了日本晴基因组工作框架图的测序。两个框架图同时发表在2002年4月的《Science》第296期第79～99页，它们都是对IRGSP的补充。

2 水稻基因组信息

基因组(genome) 包含了生物的进化、遗传和生命的奥秘，是细胞遗传物质的总和，其大小通常以其全部DNA碱基对总数来表示。水稻基因组有12条染色体，第1染色体最长，第10染色体最短；核基因组序列总长约430 Mb，是拟南芥基因组的3.7倍或人类基因组的1/6.7，预测基因总数达32 000～56 000个，可能多于人类基因总数（表2）。

籼稻是亚洲和世界其他一些地方广为种植的主要水稻亚种，同时也是我国杂交水稻的主要遗传背景之一，为解决中国人民的粮食问题作出了巨大贡献。籼稻93-11基因组框架图，共完成462万个成功反应，得到了127 550个重叠群，覆盖深度为4.2×，预测基因组长466 Mb，实测的全长非冗余序列为409.76 Mb，大约覆盖了水稻全基因组的95.29%，碱基准确率大于99%；估计基因的大小为4 500 bp，预测基因数为4.6～5.6万个，拷贝基因占基因总数的74%，转位因子占全基因组的24.9%，简单重复序列数为全基因组的2.1%；基因内GC含量的梯度明显；外显子变异少、内含子变化大；水稻与玉米、小麦和大麦之间有广泛的共线性，但水稻与拟南芥的共线性是有限的。整个水稻93-11基因组框架图能从http://genomics.org.cn/rice下载。这些序列还贮存在日本、欧洲和美国的DNA公共数据库中（DDBI/EMBL/GenBank），项目记录的代码为AAAA00000000，版本号AAAA01000000。

粳稻是适宜于温带地区种植的另一类栽培稻亚种，籼稻和粳稻两个亚种大约于200～300万年前在进化中产生分离，两者不同的基因组比例达22%以上。日本晴（Nipponbare）基因组框架图，共完成550万个成功反应，得到了42 109个重叠群，覆盖深度大于6×；覆盖率为93%；非冗余序列为389 809 244 bp，碱基准确率大于99.99%，GC含量达44%；预测基因数为3.2～5.0万个，拷贝基因占基因总数的77%；转位因子4 220个，简单重复序列数为46 666个；参照拟南芥的功能分类法，从抗病性、花时和花发育特性、新陈代谢、磷的转运子和转录因子等方面进行了基因功能分类(图1)。这套粳稻基因组框架图被简称为Syd (Syngenta draft sequence；网址：http://www.tmri.org; http://www.sciencemap.org/cgi/content/296/5565/92/ DC1)。

第1染色体的预测长度达51.4 Mb，约占水稻图1水稻基因功能分类碱基总数的1/10。迄今，已完成了大约43.3Mb的测序工作（精度99.99%），其中短臂序列长493 729 bp，约6 756个基因，约30%基因（2 073个基因）已被功能分类。基因大小的均值是6.4 kb。第1染色体是富G＋C含量的染色体，特别是在编码区，具有几个分散或串联重复序列基因簇分布的特征。

第4染色体的预测长度达36.8Mb。已经以99.99%的精度完成了大约34.6Mb的测序工作。着丝点是目前已知序列的植物中最长的，达1.16 Mb。共预测到4 658个基因和70个tRNA编码基因，其中，1 681个基因与EST相匹配。35%的基因功能已被分类。G+C含量达44.16%。转座子明显偏向常染色质域。水稻第4染色体序列与拟南芥基因组几乎没有共线性等特征。

第10染色体的预测长度达23.7 Mb。已经以99.99%的精度完成了大约22 422 563 bp的测序工作，短臂和长臂分别为7.6 Mb和14.8 Mb。共预测到3 471个基因和67个tRNA编码基因，其中，8.3%基因与EST相匹配。51.4%基因的功能已被分类。G+C含量达43.5%。这些序列贮存在美国的DNA公共数据库中（GenBank），记录代码为AE016959。

水稻基因组的成功测序是继完成人类基因组测序后的又一巨大成功。它必将成为禾谷类作物基因组研究的里程碑。

3 水稻基因组测序研究的未来

水稻基因组测序的完成及2002年9月我国水稻功能基因组计划（China Rice Functional Genomics Program, CRFGP）的启动，这一切都具有划时代的意义。然而，这还只是初步完成了整个基因组学的第一步——结构基因组学，水稻全基因组的完成图和第二步的功能基因组学的路更长，且更具现实意义。

3.1 水稻全基因组的完成图

水稻基因组框架图和全长序列的精确测定虽已基本完成，但片段之间或重叠群之间仍存在一些缺口或空隙(gap)，如籼、粳两个亚种的基因组工作框架图分别覆盖了水稻全基因组的95.29%和93%，碱基准确率约99%；第1染色体和第4染色体的全长序列之间也分别还有8个和7个缺口。由于无数重复序列，第1染色体390个PAC/BAC克隆中有4个克隆仍缺乏一致性，还属于测序的第1阶段；16个克隆属于第2阶段，370个克隆属于第3阶段。框架图仍需增加更大片段读序，构建更大跨度的重叠群(支架)，填充这些顺序间隙(sequence gap)和物理间隙(physical gap)，结合现有的物理图，改善框架图。全长序列还可用荧光标记终止法、引物步查法和少核苷酸的PCR反应等方法填补缺口或纠正组装错误。最终，为世界上所有从事水稻以及其他禾谷类作物研究的生物学家和遗传学家提供一个高度准确并进行精细注释的水稻基因组完成图。

3.2 功能基因组研究

目前已有大量微生物和模式生物的基因组全序列测序完成，如线虫(Caenorhabditis elegans)、酿酒酵母(Saccharomyces cerevisiae)、拟南芥 (Arabidopsis thaliana)、果蝇(Drosophila melanogaster)和水稻（Oryza sativa）等。完成基因组测序仅仅是基因组计划的第一步，更大的挑战在于弄清：（1）基因组顺序中所包含的全部遗传信息是什么。（2）基因组作为一个整体如何行使其功能。也即“后基因组计划”，又称为功能基因组学。水稻的基因总数有可能在5万～6万个左右，至今已报道的功能基因只有20%。随着被克隆基因的日益增多，对基因功能的研究显得日益迫切。一系列研究基因功能的方法涌现，如基因转导技术、基因敲除技术、基因嵌入技术及突变体库筛选和全基因组表达分析。可以不同规模地鉴定出各类参与细胞新陈代谢、转录、信号转导、运输和植物防御等功能基因。数以十万计的基因及其编码的蛋白质可供基因工程和蛋白质工程的操作，从而大大扩展生物技术的产业范围。

3.3 蛋白质组研究

蛋白质的结构是其功能的基础，翻译后修饰是蛋白质调节功能的重要方式，蛋白质与DNA或蛋白质的相互作用及其调节是细胞中信号传导及所有代谢活动的基础。蛋白质组学的主要技术包括二维聚丙烯酰胺凝胶电泳、质谱分析、蛋白芯片、酵母双杂交系统和噬菌体展示技术。

至今已有一系列有关水稻不同组织和器官中蛋白质组研究的报道，从根、茎、叶片、种子芽、糠和愈伤组织中分离蛋白质，经二维聚丙烯酰胺凝胶电泳，总共分辨出4 892个蛋白斑点，其中约3%的氨基端序列已被测定；从根的蛋白中检测到292个斑点，其中76种蛋白的氨基端及内部序列已经测定，根据氨基酸系列，在水稻cDNA文库中经同源性搜索找到编码42种蛋白的cDNA克隆，如果文库足够大，那么编码蛋白的所有cDNA均应较容易地通过计算机搜索鉴定出来。

3.4 禾谷类作物比较基因组学研究

禾谷类之间的广泛共线性，加之相应的遗传图和物理图，可以将某作物的共线性区域的标记作为相关作物进行精细定位和鉴定候选基因。水稻的小基因组为其他禾谷类基因组研究提供了基础，包括鉴定高效直系基因、调控区域、基因功能和便利其他禾谷类基因组的测序，往往作为模式作物。Goff等报道几乎每个禾谷类蛋白质与水稻都有一个相关基因，80%～90%禾谷类基因与水稻有同源性。禾谷类作物中大部分基因是保守的，它们的表型差异是由于少数不同基因或相似基因的功能差异引起的。通过基因组列线比较，有利于鉴定其他禾谷类定位的性状与水稻相关的基因。约2 000个禾谷类QTL被定位和列线在基因组图谱上。例如，许多玉米QTL与水稻第1染色体的顶端相关。玉米染色体1、2和7与这些区域同一列线。如在玉米的第1染色体上影响产量的一个QTL，与水稻第3染色体具有共线区域，该区域含220个预测基因和120多个水稻SSRs。利用这些基因，通过同源性鉴定了玉米的约100个未定位的cDNA，因此，它们是影响产量的候选基因。

水稻基因组中鉴别到生物合成酶、信号转导蛋白质、发育调控子和特殊转运子，已列线到水稻物理图和遗传图，也被锚到异源的禾谷类图谱上。绘制整个禾谷类列线图能够获得大部分已定位的禾谷类QTL和取舍相关性状的候选基因。水稻基因组的成功测序为禾谷类作物基因组研究提供了一个基础。

3.5 生物信息学

生物信息学的主要研究内容是生物数据库及生物信息分析，随着各种模式生物基因组计划的实施，生物数据库数量持续增长，数据库结构更复杂，大量新的分析方法被提出和改进，大量重要基因被发现；大量来自基因组水平上的分析比较结果被公布，这些结果正在日益改变人类已有的一些观念。各种数据库中具有生物联系的内容能连接到一起，实现生物信息资源共享。DNA数据库是公共生物数据库中最大的一类数据库，包含大量已知功能和未知功能的DNA系列。中国水稻功能基因组项目也构建了一个综合的水稻基因信息数据库，包含了国内外相关的水稻插入突变体、TAC末端序列和ESTs序列(http://www.rifgp.ac.cn)，可为进一步研究新基因的功能提供更多有价值的信息。

目前生物信息学已广泛用于基因组和蛋白质组的研究，但是，随着大多数基因和蛋白质功能的阐明，将会出现一个新的发展前景，这就是在计算机上模拟细胞内部和机体内部的生化代谢过程，甚至模拟进化的历程，这将使生物学真正进入理论生物学的新时期。

3.6 基因组研究成果在水稻改良上的应用研究

传统水稻育种的成功主要依赖于一系列优异基因（如矮秆基因、抗病和细胞质雄性不育基因）的发掘和利用，功能基因组发现的新基因也将大大促进水稻新品种的选育。通过水稻基因组序列比较分析和多态性鉴定，发现了品种之间的序列差异，而这些差异与表型差异一致。重要的是，利用这些差异将为分子标记辅助育种提供一个前所未有的机会。5万～6万个左右水稻基因的功能注释完成以后，对植物界有普遍意义。目前，已利用遗传工程将单个或多个目的基因导入水稻栽培品种，改良作物某些性状。将来科学家们可以利用“分子设计育种”，只要在屏幕上触摸任何发育阶段的水稻细胞就能看到所有表达的蛋白质以及它们之间的相互作用，在电脑上制定出“保护水稻整个生命周期一切活动所需的最佳基因”研究方案。

参考文献：
1 Arumuganathan K, Earle E D. Nuclear DNA content of some important plant species. Plant Mol Biol Rep,1991, 9: 208-218.
2 Izawa T, Shimamoto K. Becoming a model plant: the importance of rice to plant science. Trends Plant Sci,1996, 1:95-99.
3 Yu J, Hu S N, Wang J, et al. A draft sequence of the rice genome (Oryza sativa ssp. indica). Science，2002, 296:79-92.
4 Goff S A, Ricke D, Lan T H, et al. A draft sequence of the rice genome (Oryza sativa L. ssp. japonica). Science，2002, 296: 92-100.
5 Sasaki T, Matsumoto T, Yamamoto K, et al. The genome sequence and structure and rice chromosome 1. Nature，2002, 420: 312-316.
6 Feng Q, Zhang Y J, Hao P, et al. Sequence and analysis of rice chromosome 4. Nature，2002, 420: 316-321.
7 The Rice Chromosome 1 Sequencing Consortium. Indepth view of structure, activity, and evolution of rice chromosome 10. Science，2003, 300: 1566-1569.
8 McCouch S R, Kochert G, Yu Z H, et al. Molecular mapping on rice chromosomes. Theor Appl Genet, 1988, 80: 488-496.
9 Tanksley S D, Ahn N, Causse M, et al. RFLP mapping of the rice genome. In: Rice Genetics Ⅱ. Los Banos, Laguna: IRRI,1991.435-442.
10 Saito A M, Yano N, Kishimoto M, et al. Linkage map of RFLP loci in rice. Jpn J Breeding，1991, 41:665-670.
11 Causse M A, Fulton T M, Cho Y G, et al. Saturated molecular map of the rice genome based on an interspecific backcross population. Genetics，1994, 138:1251-1274.
12 Kurata N Y, Nagamura K, Yamamoto Y, et al. A 300 kilobase interval genetic map of rice including 883 expressed sequences. Nature Genetics，1994, 8:365-372.
13 Zhu L H, Chen Y, Xu Y B, et al. Construction of a molecular map of rice and gene mapping using a doubled haploid population of a cross between indica and japonica varieties. Rice Genet Newsl，1993, 10:132-135.
14 Xing Y Z, Tan Y F, Hua J P, et al. Characterization of the main effects, epistatic effects and their environmental interactions of QTLs on the genetic basis of yield traits in rice. Theor Appl Genet，2002, 105： 248-257.
15 Zhuang J Y, Fan Y Y, Rao Z M, et al. Analysis on additive effects and additivebyadditive epistatic effects of QTLs for yield traits in a recombinant inbred line population of rice. Theor Appl Genet，2002,105： 1137-1145.
16 Harushima Y, Yano M, Shomura A, et al. A highdensity rice genetic linkage map with 2275 markers using a single F2 population. Genetics，1998, 148:479-494.
17 Wu J Z, Kurata N, Tanoue H, et al. Physical mapping of duplicated genomic regions of two chromosomes ends in rice. Genetics，1998,150:1595-1603.
18 Chen M, Presting G, Barbazak B, et al. An integrated physical and genetic map of the rice genome. Plant Cell，2002, 14:537-545.
19 Li X Y, Qian Q, Fu Z M, et al. Control of tilling in rice. Nature，2003, 422 : 618-621.
20 Umehara Y A, Inagaki H, Tanoue Y, et al. Construction and characterization of a rice YAC library for physical mapping. Mol Breeding，1995, 1:79-89.
21 Wu J, Maehara T, Shimokawa T, et al. A comprehensive rice transcript map containing 6591 expressed sequence tag sites. Plant Cell，2002, 14: 525-535.
22 Sasaki T, Burr B. International rice genome sequencing project: the effort to completely sequence the rice genome. Curr Opin Plant Biol，2000, 3: 138-141.
23 The Arabidopsis Genome Initiative. Analysis of the genome sequence of the flowering plant Arabidopsis thaliana. Nature，2000, 408:796-815.
24 Hamilton C M, Frary A, Lewis C, et al. Stable transfer of intact high molecular weight DNA into plant chromosomes. Proc Natl Acad Sci USA，1996,93:9975-9979.
25 Wu K, Guo Y, Gao S. Evaluation of the natural refuge function for Helicoverpa armigera (Hubner) within Bt transgenic cotton growing areas in north China. J Econom Entomol，2002,95:832-837.

注：
（1）文章来源：中国水稻科学，2004，18（6）：557～562；
（2）作者单位：中国水稻研究所。

(浏览次数：4264)