|
原文选自 Biomedia 第2章 Bioinformatics: BLAST, BioPerl, and the Language of the Body
作者:Eugene Thacker
形态学
《散居[1]》是格雷格-伊根[2]的一部科幻小说,以一个30世纪 "公民 "的诞生为开篇。正如人们所猜测的那样,这个公民及其分娩过程都不是我们所期望的。“公民” 是一种完全通过计算机系统与网络存在的有意识生命形式,属于一个 "城邦[3]"。城邦--一个强大的、未来版本的服务器计算机--可能存在于某个遥远的地方,比如深空或掩埋在地球沙漠下面的区域,使用无线卫星链接将公民转移到网络上的任何地方。 每个城邦,正如其名称所示,是一种治理组织,有自己的一套规则和公民间及城邦间的社会互动。
由于城邦的公民是作为有知觉的软件存在的,或者说是作为有意识的代码存在的,他们的 "出生 "过程更类似于信息模式的设计性迭代,在那里,一个理想的模式从一套简单规则中 "形成[4]"。
小西(Konishi)的思想种子被分为十亿个字段:短的片段,六比特长,每个都包含一个简单的指令代码...... 小西心智种子的注释地图是概念公司积累的工艺知识的形式......但有一张单一的地图,小西的公民用它来衡量概念公司[5]几个世纪以来的进展;它把十亿个领域显示为纬线,把六十四个可能的指令代码显示为经线。任何一颗种子都可以被认为是沿着地图从上到下的 "之 "字形路径,沿途为每个领域挑选出一个指令代码。 有趣的是,城邦所使用的套路仍然反映了生物繁殖的生物与文化层面,在那里,代码生成的计算机 "子宫 "在 "种子 "上运行遗传算法,种子将发展成 "精神细胞",直到它达到自我意识的阶段,这时它被分配到城邦中的公民身份。因此,在《散居》的信息学未来世界中,原公民不是天生的,而是通过在 "肉体 "DNA模式上运行的遗传算法的递归、正反馈循环产生的:
在孤儿的精神细胞中,与输入通道的控制权相连的半成型导航仪开始发出信息请求流。最初的几千个请求只产生了单调的错误代码流;它们是不正确的形式,或者指的是不存在的数据来源。但每个精神细胞都天生偏向于找到城邦资料库......导航仪不断尝试,直到它找到一个有效的地址,数据涌入通道。 基于Al的 "机器学习 "方法在这里与 "先天 "的DNA模式混合在一起,后者通过 "端口"、"地址 "和网络出现,是遗传体的胚胎学发展。《散居》以这个场景开场,特别是因为它描绘了一个生物学上 "不可能 "的出生,一个 "孤儿 "或没有父母的公民的生成。这个名叫亚提玛的孤儿成为小说的核心人物之一,小说中的几条故事线描绘了不同形式的后人类生活。然而,这一幕特别有趣的是,生物和信息、遗传 "代码 "和计算机 "代码 "的浓缩。伊根所描述的过程的两个方面来自计算机科学的当前研究:遗传算法和DNA数据库。后者是新生的 "生物信息学 "领域的一个核心方面,它不仅改变了分子遗传学和生物学研究的框架,而且在绘制人类基因组图谱方面也发挥了不可或缺的作用。生物数据库(其中许多是在线的)、基因测序计算机、计算机语言(如基于XML的标准)和大量的软件工具(从数据库查询到基因和蛋白质预测)的发展都是生物信息学正在改变传统分子生物学实验室面貌的例子。一些更乐观的报告认为,传统生物学的 "wet "实验室正在被 "点选式生物学 "的 "dry "实验室所取代[6]。
当然,《散居》中描述生成有知觉的软件的场景是对科学和技术的推断--在这种情况下是对当代计算机科学、人工智能、复杂性和生物技术的研究。然而,《散居》所想象的是这样一种情况:基因和计算机代码的内爆成为非生物 "生命 "出现的契机--但这种生命是基于DNA特有的信息模式,它本身就是细胞核中生物分子的一种特殊模式。遗传和计算机代码的这种连续分层可以作为一个科幻的例子,说明遗传和计算机代码的组织如何导致 "生成代码",或对既是遗传又是计算的生命形式进行技术阐述。尽管《散居》的 "公民 "既是非实体的也是非生物的,但值得注意的是,从肉体上保存下来的不是物质,而是模式--DNA。因此,当我们谈到遗传代码和计算机代码的交叉点时,我们不一定是在谈论身体和机器、有机和无机、自然和人工之间的划分,因为这掩盖了 "身体 "被遗传学和生物技术框住的复杂方式。在《散居》的例子中,概念性的东西实际上什么也没做;相反,它是心灵种子的基础设施--与计算机代码不可分割的遗传代码的特定模式--反哺自身,从而产生类似于遗传算法的设计软件的随机过程。
简而言之,《散居》向我们展示了一个实例,在这个实例中,技术上的重新语境化(在这里是指DNA的抽象 "模式")提供了DNA的逻辑以计算的方式作用于自身的空间。同样,这种遗传和计算机代码的反复分层是当代生物技术领域的特征,比如生物信息学。尽管目前生物信息学的使用大多是实用性的(也就是说,技术即工具),但生物信息学所提出的问题是更基本的;也就是说,尽管生物信息学主要是一个技术领域,这种技术领域也提出了一系列关于生物 "生命 "和生物与技术之间的关系(或者,用另一种说法,"自然 "与人工之间)的主要哲学问题。这些问题涉及到我们对分子生物学中的表征(或模拟)和 "事物本身 "之间的差异的共同假设。它们还涉及到遗传和计算机代码的交叉如何改变所有类型的生物信息体接近序列、分子、数据库、软件和细胞的方式。最后,它们还涉及到生物信息学在研究、应用和最终的医疗实践中的广泛影响可能大大改变构成科学、哲学、社会和技术方面的 "身体 "的概念。
生物信息学简述
在生物学和生命科学研究中使用计算机并不是什么新鲜事,事实上,对生物生活的信息学方法可以追溯到18世纪的统计学、人口统计学和诊所的发展。第一批用于生物研究的计算机数据库与分析和测序蛋白质的首次尝试紧密相连。在20世纪50年代中期,分子生物化学家Fred Sanger发表了一份关于牛胰岛素蛋白质序列的报告。十年后,伴随着第一篇关于核苷酸序列的论文发表,这是一种来自酵母的RNA类型。其他类似的项目接踵而至,填补了从果蝇到各种细菌等选定生物体的核苷酸和蛋白质序列的研究。从生物信息学的角度来看,这项研究可以说在确定生物学的独特实践类型方面发挥了作用:在分子水平上对生物体进行 "数据编码"。请注意,这些例子并不涉及计算机,而是采取了一种信息学方法,即利用湿式实验室程序,将生物体转变为一个序列数据库。
第一批核酸测序研究的报告之后,紧接着就是收集、组织和注释正在产生的数据的尝试。由于大部分数据与蛋白质有关(从X射线晶体学中得到的结构数据),第一批生物信息学计算机数据库在1975年(蛋白质数据库)和1980年(SWISS-PROT数据库)建立。随着大学计算机工作站的增加,1980年8月出现了用于处理这些数据的选定工具,随着个人计算机和网络的增加,这些工具也成倍增加。然而,生物信息学从最初的人类基因组计划(HGP)中得到了最大的推动,该计划是由美国能源部和国家卫生研究院(NIH)联合发起的,于1989-90年启动。它重新定义了这一领域,不仅提出了基因组的普遍性,而且意味着对基因组的认识只能在这个特定的时刻发生,即计算技术达到了可以动态归档和分析大量数据的水平。HGP给自己提出的问题是,既要把生物体本身看作是一个数据库,又要把这个数据库从一个媒介(活细胞)移植到另一个媒介(计算机数据库)。
"生物信息学 "作为一门可识别的学科,可以说是从这些轨迹中成长起来的。生物信息学,正如其名称所示,是生物科学研究中分子生物学和计算机科学的交汇点。正如一位研究人员所说,生物信息学具体是 "旨在利用DNA和氨基酸序列及相关信息解决生物问题的数学、统计和计算方法。"然而,生物信息学也是一项业务。2000年,Silico研究有限公司报告说,商业生物信息学软件的价值接近6000万美元,许多生物技术和制药公司将其四分之一的研发工作外包给生物信息学初创企业。投资公司Oscar Gruss估计,生物信息学的市场--作为软件业的一个子集--到2005年可能高达20亿美元。此外,生物信息学通过其应用连接了不同的行业,促使了一些信息技术(IT)与生物信息学的合作。IBM用于蛋白质折叠的 "蓝色基因 "超级计算机,康柏公司与Celera Genomics合作开发的 "红色风暴 "超级计算机,以及日立、摩托罗拉和Sun公司参与开发生物信息学的IT工具。
首先是软件开发,Spotfire、MDL和Silicon Genetics等公司提供独立的应用程序(通常作为套装出售),其他公司,如eLab和eBioinformatics,提供基于网络的工具。 第二,软件开发方面也与数据库和硬软件系统的开发和管理有关。Lion Bioscience、InforMax和Perkin-Elmer等公司专门从事数据库管理或基因组测序的硬件系统开发。第三,除非能很快建立一个数据标准,否则软件和与之互动的数据库将遇到瓶颈。一些公司致力于 "本体 "标准,或为生物信息学研究中产生的所有数据开发跨平台的文件格式、注释和标记语言。生物技术公司的联盟,如l$C(Sun、IBM、Affymetrix、Millennium Pharmaceuticals和其他公司),正在努力实现生物信息学的这种标准化,作为一种实践。
研究人员用生物信息学工具做什么?分子生物学家可以使用生物信息学工具进行五种基本类型的研究:数字化(对生物样本进行编码),识别(未知样本),分析(生成样本的数据),预测(使用数据发现新分子),以及可视化(数据的建模和图形显示)。
其中最常见的技术是序列比对,也是生物信息学中最早的技术之一。这也被称为 "成对序列比对("pairwise sequence alignment)",简单地说就是将一个序列(DNA或蛋白质代码)与数据库进行比较,寻找可能的匹配或接近的匹配(称为 "同族")。人工操作不仅让人筋疲力尽,而且是不可能的,因为它涉及到沿着几个 "阅读框架 "的模式匹配(取决于沿着序列开始比较的位置)。生物信息学工具通过接受输入序列的算法进行这种模式匹配分析,然后访问一个或多个数据库来搜索匹配。
其他常见的技术包括序列组装(匹配序列片段)、序列注释(关于序列含义的说明)、数据存储(在动态更新的在线数据库中)、序列和结构预测(使用已识别分子的数据)、微阵列分析(使用生物芯片分析测试样本)和全基因组测序(如人类基因组项目所进行的)。 他们可以在数据库中搜索开放阅读框架、外显子剪接位点、重复序列、单核苷酸多态性(SNPs)、蛋白质图案和结构域、表达序列标签(ESTs)以及PCR引物设计的候选者。当与分子建模工具相结合时,生物信息学也可用于研究蛋白质结构,以及帮助设计基因药物或疗法的化合物。
命令-控制-重启
如果人们想了解生物信息学(计算机科学和生物科学)的这些双重生物学和技术方面的内容,可以通过查看研究人员在过去一年中撰写的各种流行科学书籍来了解。我们可以从埃尔温-薛定谔的《生命是什么》开始,这是最早用 "信息 "和 "代码 "来表述遗传物质的著作之一(尽管在其出版时,DNA的结构和编码模式还没有被阐明)。我们还可以将弗朗西斯-克里克的《生命本身》包括进来,以及他在1950和60年代发表的大量关于 "遗传代码 "的文章。同样,生物学家乔治和穆里尔-比德尔的《生命的语言》不仅用信息学术语,而且用语言学术语总结了分子生物学的发现,帮助提出了DNA在某种意义上是一种 "语言 "的观点。 "法国的弗朗索瓦-雅各布和雅克-莫诺团队的流行书籍通过在话语中加入他们对基因调控机制的著名研究,扩展了DNA的信息术语。雅各布和莫诺将DNA作为信息的概念进一步推进,认为基因调控本身形成了一个 "基因程序",与当时美国军方和IBM等企业正在开发的大型计算机并无不同。事实上,在整个1950年代后期和1960年代期间,一些分子生物学和遗传学研究人员似乎为非专业的公众出版了书籍或文章,每一篇都是薛定谔问题 "什么是生命?"的一种版本,每一个都是答案的一种版本:生物生命是DNA,而DNA是信息。
正如莉莉-凯(Lily Kay)有效地证明的那样,遗传密码这一特例有着漫长的生命,但其中有一些配合和开始,有一些不同的路径和不连续的范式。凯的首要观点是,"遗传密码 "的概念--实际上还有分子遗传学本身--是通过与控制论、信息论和早期计算机科学的讨论交叉融合而出现的。凯在遗传密码的历史上提供了大约三个不连续的、重叠的时期--第一个阶段以20世纪早期的 "特异性(specificity) "为标志(蛋白质被认为包含遗传物质),第二个 "形式主义 "阶段以 "信息 "的使用为标志。第二个 "形式主义 "阶段,以从其他领域挪用 "信息 "和 "代码 "为标志(沃森和克里克的研究适合于此,特别是克里克对 "编码问题 "的表述),以及1950年代和1960年代的第三个 "生物化学 (biochemical)"阶段,在这个阶段,信息学的特写被扩展,因此DNA不仅是一个代码,而且是一种成熟的 "语言"(遗传学成为密码学,如马歇尔-尼伦伯格和海因里希-马泰关于 "破解生命密码 "的工作)。
尽管凯的历史分析以这第三阶段为结束(她的书停在20世纪60年代,就在基因工程之前),但我们不难看到至少有两个阶段紧随其后。一个是 "生物技术阶段",研究和分析基因过程的能力导致了操纵、调节和控制这些过程的新方法--基因工程的 "控制原则"。20世纪70年代初DNA重组技术的发展在很大程度上被视为催生了基因工程的时代,以及国际上对新兴生物技术的道德使用的首次关注。Herbert Boyer和Stanley Cohen的DNA重组研究表明,DNA不仅可以被研究,而且可以作为一种技术被使用。胰岛素的合成--以及基因技术公司对其技术的专利申请--为这一时期生物技术的控制原则提供了重要的概念证明。
最近的阶段--"生物信息学阶段"--与遗传工程的控制原理关系不大,而与计算机科学和生物技术的结合关系较大。绘制人类基因组图谱的竞赛最终被证明是关于生物信息学的,而不是其他任何东西--竞赛的关键参与者不是科学家,而是超级计算机、数据库和编程语言。即使在80年代末开始的时候,能源部的人类基因组计划也标志着从控制原则到 "存储原则 "的转变,同时从未放弃控制遗传物质的能力,这是遗传工程的特点。这个生物信息学阶段越来越表明,生物技术和遗传学研究没有某种程度的计算机技术是不存在的。新出现的领域都伴随着一种新的技术:基因表达(生物芯片),基因组学(自动测序计算机),蛋白质组学(超级计算机),结构基因组学(数据挖掘软件)。
请注意,这些不是连续的阶段,而是同时进行的阶段;尽管生物技术阶段的遗传工程工具比生物信息学工具发展得早,但如果没有前者的议程,后者是不可想象的。随着在线基因组数据库的出现,遗传工程的控制原则有了新的形式,就像生物信息学的存储原则使新型软件工具的扩散一样。
广而言之,我们可以通过描述一个双重的运动来总结这一历史概况:即隐喻化和自主化之间的运动。在凯所阐述的早期和中期阶段,我们有一个渐进和不连续的过程,通过这个过程,控制论和信息论中的 "信息 "概念被分子生物学挪用为描述遗传物质的隐喻(凯称之为 "隐喻的隐喻")。DNA的作用类似于技术系统中的信息,既是载体,又是一代人传递给下一代的信息。
然而,在这之后的阶段--生物技术和生物信息阶段--信息不被视为DNA的隐喻,而是被视为作为技术原则存在于DNA本身。随着在计算机中控制和存储DNA的新技术的兴起,信息学模型的隐喻地位坍塌到DNA本身。基因组数据库和生物信息学软件工具的发展似乎表明,信息不再是DNA的一个隐喻,一种谈论DNA的方式,而是从技术上讲,DNA就是信息。DNA在信息方面的这种自主化意味着基因组本身可以被看作是一台生物计算机,例如在生物计算中对DNA的非生物用途中所展示的东西。
当然,这种从DNA作为信息的隐喻化到自主化的广泛过渡并不意味着生物技术目前的运作没有隐喻;最近围绕人类基因组图谱的炒作证明了这一点--"生命之书 "和 "自我的软件 "的隐喻在专家和非专家媒体中都很丰富。这确实意味着,生物技术研究不再从其他领域寻找隐喻的灵感了。相反,由于采用了DNA的信息术语,生物技术研究越来越多地用信息学的一般原则来处理生物问题。"信息 "不再来自外部(从学科上讲)来描述像DNA这样的生物实体。相反,信息被视为构成了我们在分子水平上对 "生命 "的理解--不是对一个隐喻的外部占有,而是信息作为DNA构成的认识论内化和技术自主化。这一点怎么强调都不为过。正是这个假设使生物技术研究能够设想出一个可以进行各种编码(采样到在线数据库)、退行(对新基因进行数据挖掘)和解码(合成新的药物化合物)的基因组:身体不再是传输DNA信息的媒介(来自控制论和信息论的模型);身体本身就是 "生物媒介"。任何时候我们遇到这种生物过程的技术重构,我们都有一个生物媒体的实例。没有蒸汽机,没有金属和肉体的半机械化融合,没有图灵机、机器智能或黑盒子,只有技术上的设计,使 "自然 "的生物过程能够在新的背景下发生。
同样,如果我们认为足够先进的技术使隐喻成为不必要的,那就错了;目前遗传密码的 "生物信息学阶段 "并不是关于技术照亮隐喻的模糊性的能力。但就生物技术对 "生命 "的理解而言,信息学隐喻的整体地位已经发生了重大变化,这部分是由于新的计算机技术被整合到生物技术研究中的方式。尽管早期的研究人员,如Crick,从未提出将信息论、控制论或电气工程的原理应用于分子生物学研究,但他们对来自这些领域的 "信息 "的解释确实大大改变了分子生物学--以及它可以提出的各种问题。简而言之,我们可以说,"遗传密码 "的隐喻在分子生物学中主要起到了描述性的作用,但它已经内化为生物学和遗传学的认识论基础。在过去的20年左右,我们所见证的(随着生物技术 "产业 "的兴起)是一个进一步的层面,在这个层面上,信息的隐喻通过一系列的实践、技术和工艺被具体化。基因组数据库只是其中的一个例子(描述、内化、物化)。事实上,现在似乎几乎不可能在战后时代建立的信息术语之外思考DNA、基因组或生物生命本身。共生学、表观遗传学、复杂性和自创生组织(Autopoiesis)[7]的理论都曾一度成为这种批评的对象。
鉴于这样的历史,我们该如何看待当代 "生命是什么?"的书籍,如Pierre Baldi的《破碎的自我》,这是一本由生物信息学家写的书,它表明新的生物技术正在挑战我们关于自我的概念本身。但是Baldi的论点不是从哲学-文化的角度,而是从生物-技术的角度给出了证据:正如Baldi所说,我们在分子和基因层面(在信息学层面)对 "生命 "的了解越多,我们就越发现我们的共同概念是什么?我们越是发现,我们对一个自主的、统一的、原子化的 "自我 "的常见概念与来自生物技术和生物信息学的观点不相称:
事实上,我们对自我、生与死、智力和性的概念是非常原始的,而且在人类历史的规模上处于被深刻改变的边缘......。这种破碎是由生物学、计算机科学的科学进步以及由此产生的生物技术和生物信息学等技术带来的。 尽管巴尔迪将现代主体的解构归功于科学的进步(这在很大程度上意味着计算机科学的进步),但我们可以质疑这种保守主义和进步主义的结合。这种对生命的生物分子观点向我们展示了一个 "身体",以一种令人不安的方式,与归因于基因组或DNA的各种拟人化不可分割。一个特定的过程,如糖的代谢,可能涉及到由成千上万的生物分子组成的网络和子网络。这种 "生物分子体 "既是人,又是非人,既把我们自己构成为有机体,又形成了一种生物逻辑,与表征、还原论或代理/因果关系关系都关系不大。从这个角度看,今天生物技术所面临的挑战不是获得足够的计算能力,而是提出这样的问题:我们对 "身体 "和 "人 "的概念--哲学和伦理的概念--是否需要定性的重新表述。
"我们在他们让我们成长的大楼里"
在对生物信息学实践的描述中,有一个问题可能需要问:我们不就是在处理与 "身体本身 "关系不大的数据吗?我们可以通过问另一个问题来着手解决这个 "仅仅是数据 "的问题:当我们听到谈论与生物信息学和相关领域有关的 "生物数据 "时,这到底是什么意思?
在一个层面上,生物数据确实不过是计算机代码。大多数生物数据库存储的不是生物核酸、氨基酸、酶或整个细胞,而是数据串。在计算机编程术语中,"字符串 "只是任何线性字符序列,可以是数字、字母或其组合。执行各种字符串操作的程序可以根据应用于同一字符串的组合原理进行一系列广泛的操作。这可能是对数字的计算,或文本中字母的排列组合。事实上,最熟悉的字符串操作类型发生在我们编辑文本时。例如,在写电子邮件时,我们输入计算机的文本必须被编码成可以在网络上传输的格式。这意味着,"例如,在写电子邮件时,我们输入计算机的文本必须被编码成可以在网络上传输的格式 "这句话必须被翻译成较低层次的计算机数字语言,每组数字代表句子序列中的字母。在更基本的层面上,这些数字本身必须由零和一的二进制代码表示,这些代码本身被翻译成沿着光缆的光脉冲(在电子邮件的情况下)或在计算机处理器的微电路内(在文字处理的情况下)。
在文本操作中,如写电子邮件或文字处理,一个常见的编码标准被称为ASCII,即美国信息交换标准代码。ASCII是由美国标准协会在20世纪60年代建立的,伴随着互联网和商业主机的发展,作为在计算机上翻译英语字符的一种标准化手段。ASCII是一种 "8位 "代码,即一组8个1和0代表某个数字(如 "112"),它本身代表一个字母(如小写字母 "p")。因此,在 "例如,在写电子邮件时,我们输入计算机的文本必须被编码成可以在网络上传输的格式 "这句话中,每个字符--字母、标点符号和空格--都由ASCII标准指定的数字进行编码。
这与分子生物技术和生物分子体有什么关系?正如已经指出的那样,大多数生物数据库,如容纳人类基因组的数据库,实际上只是包含一长串字母的文件。就核苷酸数据库而言,就是As、Ts、Cs和Gs。当新闻报道谈到 "绘制人类基因组图谱的竞赛 "时,他们实际上指的是努力将细胞中染色体中的DNA "字符串 "的顺序转换为计算机中的数字字符串数据库。虽然DNA的结构特性被理解为在转录和翻译过程中发挥了重要作用,但多年来,遗传学和生物技术的主要关注领域当然是DNA或 "基因"。在这个焦点中,主要关注的是DNA序列的特定顺序如何在某些蛋白质的生产或其他基因的调节中发挥作用。由于序列是关注的中心,这也意味着,为了分析的目的,细胞中密集盘绕的三维 "湿 "DNA必须被转换成一串线性数据。由于核苷酸序列传统上是由其碱基(腺嘌呤、胞嘧啶、鸟嘌呤、胸腺嘧啶)的字母表示的,所以ASCII是一个适合长串字母的编码方案。为了更清楚地说明这种关系,见表一。
与英语字符用ASCII编码的方式相同,分子生物学的表示方法在这里也被编码为ASCII数字。这些数字本身就是二进制数字。在二进制数字的层面上,也就是 "机器语言 "的层面上,遗传密码就像其他类型的数据一样是一串一和零。同样,包含遗传序列的数据库文件是从ASCII数字中读取的,并呈现为四个字母的长线性字符串(甚至可以在文字处理程序中打开)。因此,当我们在遗传学教科书中看到DNA被描绘成一串标有 "A-T "或 "C-G "的珠子时,我们所看到的既是一个生物大分子的代表,也是计算机数据库中一串数据的示意图。
这就是生物数据的全部吗?如果我们采取这种方法--即生物数据是对 "真实 "事物的量化抽象--那么我们确实会得出这样的结论:生物数据和生物信息学不过是数字对真实事物的抽象。从纯粹的技术角度来看可能是这样,但我们也应该考虑这种技术配置所引起的各种哲学问题;也就是说,如果我们暂时离开真实与数字、事物本身与表征的认识论辩论,不考虑 "对象 "而是考虑关系,我们可以看到生物数据不只是二进制代码。以http://Bioinformatics.org网站上的一条评论为例:
大多数大型生物分子在数学上的一个有趣特性是它们是聚合物;由较简单的分子模块组成的有序链,称为单体。可以把它们想象成珠子或积木,尽管它们有不同的颜色和形状,但都有相同的厚度和相同的连接方式...。许多单体分子可以连接在一起,形成一个单一的、大得多的大分子,它具有非常具体的信息内容和/或化学特性。根据这一方案,DNA或蛋白质的特定大分子中的单体可以在计算上被视为字母表中的字母,按照预先编程的安排组合在一起,在细胞中传递信息或工作。
这表明,生物数据的概念不是关于真实(生物)对象可能被抽象和表示(数字)的方式,而是关于某些 "关系模式 "可以在不同的物质基质和不同的平台上被识别的方式。我们仍然有从生物到数字的代码转换,但不是对象的抽象和表示,我们所拥有的是特定关系模式的跨平台保存。从分子生物学的角度来看,这些关系模式可能是遗传序列的元素(如DNA中的碱基对结合),分子过程(如RNA翻译成氨基酸链),甚至是结构行为(如蛋白质的二级结构折叠)。材料基质可能会改变(从细胞到计算机数据库),湿式实验室和干式实验室的区别可能仍然存在(湿式DNA、干式DNA),但需要注意的是 "生物数据 "如何不仅仅是抽象或表示。这是因为计算机数据库中的生物数据不仅仅是为了存档,而是作为待处理的数据存在,人们希望这些数据能够揭示出重要的模式,这些模式可能对疾病的遗传机制有所启示。
尽管DNA转录和翻译的模拟可以在一些软件平台上构建(包括三维和基于计算机图形的输出),但重要的是,生物信息学利用的主要工具开始是数据库应用程序和基于Unix的文本处理工具。这些特殊类型的计算机技术所提供的不是一个更完美的表象,而是一个特定的媒介背景,其中DNA的逻辑可以被保存,并在各种实验条件下发挥出来。是什么使基因或蛋白质预测的实践得以发生?预测的做法能够发生,是计算机和基因代码的复杂整合。 必须保存的是在湿的DNA中确定的关系模式(即使媒介的物质性被转移)。一个生物信息学研究者 在一个未知的DNA样本上进行多序列比对,不仅仅是与计算机互动,而是与 "生物逻辑 "互动,这种逻辑在从湿实验室到干实验室,从细胞中的DNA到数据库中的DNA的过渡过程中一直保持着。
生物数据可以被更准确地描述:"生物逻辑 "在不同材料基质或不同介质中的一致性。这涉及到使用计算机技术,既要保护DNA的生物逻辑(如碱基对互补性、密码-氨基酸关系、限制性酶接点),又要开发一种技术背景,在这种背景下,生物逻辑可以以新的方式被重新定义(如基因预测、同源建模)。这样,生物信息学由一个挑战构成,这个挑战既是技术上的,也是理论上的:它必须调节遗传和计算机代码之间的 "差异"。
在一般的层面上,生物技术对遗传代码和计算机代码、碳和硅之间关系的调节,似乎是以 "信息 "的概念为中介的,它是一种独特的元素,能够容纳不同媒体之间的差异,建立一个第三原则,能够在异质现象之间形成关联。这种媒介之间的 "可译性"--在我们的例子中,在遗传代码和计算机代码之间--也必须对翻译中可能发生的某些转变起作用。因此,可译性的条件(从遗传代码到计算机代码)不仅是在异质现象之间形成了等价的联系,而且还阻止了其他类型的关系的形成,为特定类型的翻译的发生设置了条件。我们可以用几种方式来进一步阐述这种生物逻辑。
对身体的生物信息学方法不仅涉及到跨媒体的信息纯度的保护,而且更重要的是,在不同的媒体中禁用转化。这类似于 "降噪 (noise reduction)"的方法,即通过传输、文件转换和各种硬件平台(从在线服务器到本地运行的测序仪)之间保持遗传数据的保真度。在这种信息学背景下,噪声( term noise)一词的经典内涵是指信息信号在原点A被传输到目的地B时的任何失真。 对于生物信息学方法,这不仅意味着基因数据必须能够在分子和比特之间 "翻译",而且基因数据必须在各种研究背景下保持自我同一。一个研究人员将细菌细胞中的DNA样本编码到基因组数据库中,必须确保在这个过程中,该研究人员认为重要的东西(如原始DNA序列)不会在无意中发生变化。因此,对于生物信息学方法来说,技术上的挑战是实现 "无转换的翻译",以保持基因数据的完整性,无论该信息通过何种媒介移动。最重要的是,翻译过程中的降噪涉及到对不同媒体和信息背景本身的转化能力的否定。对于生物信息学来说,媒介不是信息;相反,信息--一个基因组、一个DNA样本、一个基因存在于一个移动抽象的特权场所,它必须受到保护,不受不同媒体平台的影响。
生物信息学的另一个预防措施涉及研究中对 "稳定媒介 "的偏爱,或者从系统操作者的角度来看,对创建强大、一致和可预测的计算机系统来处理遗传数据的专注。在布鲁诺-拉图尔关于科学实践和 "非人类行为者 "的讨论中,实验室、技术和人工制品等看似被动、惰性、不活跃的对象反而被认为是科学中知识生产和促进创造性思维的积极参与者。这种积极的对象,或行为者,会产生各种抵制,改变行动路线,或对参与其中的人类和非人类产生变革性影响。尽管拉图尔的论点广泛适用于技术科学研究,但在生物信息学中强调稳定媒体的具体方式是它区别于 "湿 "分子生物学实验室的传统。与计算机硬件和软件行业相联系,生物信息学必须不断管理技术发展(和淘汰)的周期,以及努力实现文件格式、操作系统平台和其他各种技术特征的标准化。部分原因是生物技术接近数字技术作为工具,部分原因是这些技术被认为是透明的(透明的,所以生物体可以被看出来),生物技术在与数字技术--计算机、数据库、软件、实验室工具等接触时要求一定程度的技术稳定性。它要求生物技术研究的行动者作为惰性的、类似工具的物体发挥作用,而不是作为物质实践的意义的转化者。DNA芯片不应该展示其混合的,甚至是畸形的工程DNA分子和硅基的分子缝合;作为一个诊断工具,它的构造是作为一个中性的模板来操作的,对照一个给定的细胞样本可以被 "解码"。因此,从技术角度来看,如果要在遗传和信息学之间顺利转换,就必须对不稳定性、不可预测性和意外的品质--"不稳定媒体 "的品质进行调节。
生物逻辑 Bio-Logic
我们可以通过考虑使用一种叫做 "BLAST "的在线软件工具和前面提到的成对序列比对技术(pairwise sequence alignment),来仔细看看生物信息学中技术和工艺的生物逻辑是如何运作的。
BLAST是最常用的生物信息学工具之一。它是 "基本局部对齐搜索工具 (Basic Local Alignment Search Tool)"的缩写,于1990年5月在美国国家生物技术信息中心(NCBI)开发。与许多生物信息学工具一样,BLAST对序列数据进行分析,或者用计算术语来说,对字符串进行分析。特别是,BLAST,正如其全名所示,是一套对序列排列进行分析的算法。序列可以是核苷酸或氨基酸序列,搜索和分析的特异性程度可以通过BLAST的搜索参数进行调整。BLAST算法需要一个输入序列,然后将该序列与已知序列的数据库(例如GenBank、特定物种数据库、EST数据库、限制性酶数据库、蛋白质数据库)进行比较。根据其搜索参数,BLAST随后将返回最可能匹配的输出数据。一个研究人员在处理一个未知的序列时,可以使用BLAST来找出该序列是否已经被研究过(当有匹配时,BLAST包括研究文章和期刊的参考),或者,如果没有完美的匹配,一个给定的序列可能有哪些 "同源物 "或近亲(BLAST还包括基于用户设置的统计参数的近似匹配)。无论哪种输出都会告诉研究者一些关于测试序列的可能的生化特性甚至是功能。在某些情况下,这种搜索可能导致发现新的序列、基因或基因-蛋白质关系。
目前,NCBI拥有许多不同的序列数据库,所有这些数据库都可以使用BLAST进行访问,并使用不同版本的BLAST。例如,"blastn "是默认版本,只搜索GenBank的核苷酸数据库。其他版本执行相同的基本比对功能,但数据之间有不同的关系。"blastp "用于氨基酸和蛋白质搜索,"blastx "将首先把核苷酸序列翻译成氨基酸序列,然后再搜索blastp,"tblastn "在把核苷酸翻译成氨基酸后,将蛋白质序列与核苷酸数据库进行比较,"tblastx "在把两者翻译成氨基酸代码后,将核苷酸序列与核苷酸数据库比较。此外,当BLAST第一次出现时,它作为一个独立的基于Unix的应用程序,要求研究人员不仅要有Unix环境的工作知识,而且要学习BLAST特定的命令。然而,随着90年代初网络被引入科学研究界,BLAST被移植到一个可用于网络的界面前端和一个数据库密集的后端。其他生物信息学工具网站,如加州大学圣地亚哥分校的Biology Workbench,也将提供BLAST搜索的门户,通常都有自己的前端。
BLAST在某种程度上已经成为生物信息学的标准,因为它从一个相对简单的任务中产生了大量的数据。尽管序列比对有时是计算密集型的,但其基本原理很简单:字符串的比较。首先,为BLAST定义一个 "搜索域",这可能是对一个特定数据库的选择。这就限制了BLAST的活动领域,这样它就不会浪费时间在不相关的数据集中搜索匹配。然后一个输入序列被 "穿透 "到搜索域中。BLAST算法根据一个评分原则搜索最接近的匹配。当搜索完成后,得分最高的命中被保留下来并进行排名。因为这些命中的序列是数据库中的已知序列,它们所有的相关特征数据都可以很容易地被获取。最后,对于每一个命中,相关的书目数据也被检索出来。仔细观察BLAST算法,可以看到它是如何与生物数据一起工作的。
在考虑一个流行的生物信息学工具如BLAST时,重要的是要牢记生物信息学的 "控制原则 (control principle)"和 "存储原则(storage principle)"。BLAST结合了生物信息学的两个关键方面:在计算机数据库中灵活地归档和存储生物数据的能力,以及开发访问和与该数据库互动的多样化工具。如果没有生物数据的数据库,或者更确切地说,没有 "生物逻辑 "的数据库,生物信息学工具只不过是纯粹的软件而已。反过来说,如果没有对数据库中的生物数据进行操作的应用程序,数据库只不过是一个静态档案。生物信息学可以被看作是这种正在进行的尝试,将控制和存储原理在不同的媒体上无缝整合,无论是在基因工程的生物分子中还是在在线生物数据库中。
正如下图中的BLAST算法所示,整合控制和存储原理的问题需要的不仅仅是纯粹的计算机科学;它需要将分子生物学与编程进行类似的整合,开发一种功能性的生物逻辑。虽然数据库当然不是生物信息学所独有的,但BLAST算法是为核苷酸和蛋白质序列的生物逻辑量身定做的。四个核苷酸(A-T;C-G)顺序组合之间的碱基对互补的生物逻辑只是BLAST算法的一个方面。其他更复杂的方面,如重复序列、启动子和抑制子区域以及转录位点的识别,也牵涉到BLAST的生物算法中。BLAST的算法所保留的是这种关系模式,这种被视为存在于染色体和数据库中的生物性。
但是,BLAST不仅通过跨材料基质保存这种生物逻辑来翻译生物分子体,而且在这种从一种介质到另一种介质的移动中,还扩展了控制原则,使生物分子的新配方不适用于细胞染色体的前一种 "湿 "介质。BLAST做到这一点的一种方式是通过 "搜索查询 "技术。查询 "功能也许是人们最熟悉的使用许多 "搜索引擎 "之一在网络上进行的各种搜索,其中每一个都采用不同的算法从网络上收集、选择和排序数据。BLAST不搜索网络,而是在生物数据库上执行用户指定的查询,把生物信息学的控制和存储原则结合起来。在NCBI网站上,BLAST界面包含多个输入选项(用于粘贴序列的文本字段或用于加载本地序列文件的按钮),这些选项利用特殊的脚本将输入数据传送到NCBI服务器,在那里进行查询。这些脚本被称为 "CGI "或 "通用网关接口 "脚本,是网络上最常用的用于在网页上输入数据的脚本之一。CGI脚本运行在HTML网页之上,并形成了在服务器计算机和客户计算机之间传输特定输入数据的联络方式。一个BLAST查询将接受输入的序列数据,并将其与搜索的指令一起发送到服务器上。然后NCBI服务器上的BLAST模块将接受数据并按照CGI脚本的规定运行其排列。
BLAST查询涉及纳入通过媒介(在这种情况下,计算机网络代码)移植的 "原始 "生物数据,以便它可以在特定的媒介背景下被处理,在其中 "有意义"。与原始输入序列一起包括多个排列组合以及与这些序列相关的序列、结构和书目数据。输出不仅仅是比特或字母;输出是一个配置的生物逻辑。从哲学技术的角度来看,BLAST与其说是一个序列比对工具,不如说是生物信息学将生物逻辑跨媒体转化的一个典范案例,重点在于控制原则可能扩展生物数据的维度的方式。
没有转化的翻译 Translation without Transformation
像BLAST这样的生物信息学工具是生物信息学致力于实现遗传和计算机代码之间的 "完全可转换性 "条件的具体说明。以不同的方式,它们不断地试图通过调节不同媒介间的代码转换的背景来管理遗传和计算机代码之间的 "差异"。如前所述,这些模式包括软件之间、平台之间和网络之间(DNA和氨基酸序列;ESTs、SLS、SNPs、cDNA库和其他形式的生物分子代码)的大部分代码类型的自动翻译。这些代码翻译的技术还融合了另一种调节模式,即降低噪音,或将关于特定代码的模糊性降到最低(例如,在GenBank中关于特定DNA序列产生的所有数据)。一个有效的翻译,通过降噪而变得更加简洁,意味着最后的调控模式--管理不稳定的媒介--可以作为设计软件系统的一种手段来实施,显示出有规律的行为、确定性的行动以及软件组件和网络之间的离散关系。
BLAST也旨在实现代码在不同环境下的透明翻译,但BLAST并不关注这样做的普遍规则,而是更关注于 作为一个生物信息学搜索工具,BLAST更专注于自身的特定功能。数据库查询工具 像BLAST这样的数据库查询工具主要关注的是提供生物逻辑的翻译,在 输出数据,可以用于分析和进一步的分子生物学研究。呈现一个输出文件,在DNA序列、多对比对和其他相关物种之间建立起关系。和其他相关的生物分子信息之间的关系的输出文件。通过在数据类型之间建立生物关系来转换它们。 当然,这种方式是通过严格的 "非生物 "操作来实现的。操作,也就是把数据作为数据进行关联(如字符串操作,如配对排列)。为了实现这种技术和生物的转换,BLAST必须以一种高度阐明的方式作为搜索工具来操作。在这种情况下,"结构化查询语言 "意味着远远超过简单地查询期刊作者、书名或主题标题。从分子生物学研究的角度看,它意味着整个认识论。哪些东西可以被知道,哪些类型的查询可以进行,都与BLAST这样的工具密切相关。由于这个原因,像BLAST这样的工具作为 "基因搜索器 "是非常好的,但它们在搜索和分析细胞中嵌套的、高度分布的生物通路方面就很差。不稳定介质的原则在这里得到了稳定,它将介质的物质性(在这里是指计算机数据库查询软件)的功能与生物数据的组织沿着两条线(在数据库中,以及作为按生物成分和过程分离的数据--DNA、RNA、ESTs、氨基酸等)对齐。
对BLAST的观察指出了 "完全可转化性 "的实践和理论层面的一个重要方面。在BLAST的例子中,遗传代码和计算机代码的相互作用被处理得很好,使它们之间的关系变得透明。换句话说,当作为 "生物媒体 "来看待时,即作为生物领域的技术重构,BLAST加强了媒体是透明的概念。BLAST搜索查询的工作原理消失在 "后端",因此,DNA序列和结构的生物逻辑可以作为遗传数据本身被提出来。然而,正如我们所看到的,这需要在重新定义和重新配置基因和计算机代码之间的关系方面做相当多的工作;与流体翻译、降噪和监测不稳定媒体有关的监管实践,都是为了这个目的。
因此,所需的重构量,所需的技术重构量,与DNA序列和结构的生物学表现方式成比例地相关。在BLAST查询和分析中,计算机技术的结构和功能被纳入软件 "本体 "的一部分,发生这种情况的主要原因是为了使新的生物逻辑类型能够自我显现,这些特征是 "生物的",但也不可能在湿实验室中出现(例如,多个配对排列,基因预测,跨数据库查询)。生物、生物分子体从未停止过将自己作为生物体提出来;而这只有在复杂的背景下才有可能。遗传和计算机代码被带入可能发生完全可转换性的关系中。
这在生物信息学中如何对生物分子体进行重新概念化方面产生了一些矛盾。一个主要的紧张关系是在生物信息学实践中,没有转换的翻译如何变得工具化。一方面,大多数的生物信息学软件工具利用计算机和网络技术来扩展分子生物学实验室的实践。这意味着计算机代码在新的背景下透明地带来了生物体,从而产生了从身体中提取数据的新方法。事实上,将人类基因组工作转移到网上的巨大优势之一就是这种关于生物媒体透明度的假设。所涉及的大量技术基础设施--从自动基因测序计算机到任何数量的数据库、客户-服务器和安全应用--都证明了生物技术和遗传学的 "高科技 "特征。在这些基础设施中,也说明了计算机技术有能力更详细地展示基因组中固有的生物逻辑,就像在生物细胞中一样。代码可以被改变,而身体保持不变;培养皿中细胞的DNA序列的相同生物逻辑被保存在在线基因组数据库中。
另一方面,生物信息学并不是简单地把湿生物学实验室作为一种模拟来复制,这一点有很大的不同。相反,从技术角度看,生物学从湿法实验室延伸到干法实验室还意味着新的技术、新的研究对象和新的工具是根据这种特殊媒介的承受力而开发的。基因预测、数据库比较和多序列分析等技术产生了计算机媒介所特有的生物分子体。在这个意义上,生物信息学的技术意味着在生物分子体的工具化方面具有某种进步性。执行字符串操作、数据库查询和数据建模以及标准化标记语言的新发现的能力,也意味着 "身体能做什么 "的问题以特定于媒介的方式被扩展。当我们考虑直接与湿法实验室相关的生物信息学实践(如合理药物设计、引物设计、基因诊断)时,生物分子体的这种工具化在很大程度上被重新物质化了。改变代码,你就改变了身体。在线数据库中DNA序列编码的改变可以直接影响实验室中新型化合物的合成。
作为阐述这些紧张关系的一种方式,我们可以沿着四个主要轴线进一步讨论 "没有转化的翻译 "的情况。
DNA = data
第一种提法是遗传代码和计算机代码之间的等效性。如前所述,这种提法的基础可以追溯到战后时期,在这一时期,分子生物学和控制论的话语交织在一起,最终形成了弗朗西斯-克里克所说的 "编码问题",或者说DNA,即遗传 "代码",如何产生各种各样的蛋白质。这些暗示性的套路和信息学的隐喻在生物信息学中得到了延伸,并在基因测序等实践和基因组数据库等对象中得到了体现。特别是,基因测序提供了一个典范的例子,说明生物信息学如何在技术上建立了基因和计算机代码之间的等价条件。如果,这样的逻辑,在DNA中存在一种固有的 "代码"--也就是说,一种比DNA的成分或物质更多的关系模式--那么,这种代码就可以被识别、"阅读",并在不同的媒体中被分离出来。
基因测序方法,如Celera公司的 "全基因组猎枪测序(whole genome shotgun sequencing) "方法,将这种逻辑应用于作为生物分子和数字数据库的DNA。猎枪测序(Shotgun),正如其名称所暗示的,从基因组样本开始(通过PCR等方法扩增),实际上被炸成了大量的小片段。这些片段中的每一个都被 "标记 "为一条短的DNA链,其独特的序列是已知的(称为 "序列标记位点 "或STS)。因为每个片段两端的标签是已知的,所以这些DNA片段可以端对端地排列,这样它们的序列最终就会显现出来,通过标签位点的结合而真正 "拼出来"。然而,这需要大量的迭代和组合工作,有点像拼凑一个三维的拼图。出于这个原因,使用了基因组测序计算机,这有助于实现shotgun过程的自动化。
尽管这一程序的主要目标是对一个未知的样本进行测序,但猎枪测序还完成了一个条件,通过这个条件可以在湿的、样本DNA和计算机输出的重新组装的基因组序列之间建立一个等价关系;也就是说,在进行任何更复杂的生物信息学或基因组学或蛋白质组学技术之前,必须阐明基因和计算机代码之间技术等价的原则。
DNA <-> data
在此基础上,第二种提法是遗传代码和计算机代码之间的来回流动;也就是说,一旦可以确定等价的参数,就为实现遗传代码和计算机代码之间的翻译,或者为促进它们在不同媒介之间的传输创造了条件。那么,遗传代码和计算机代码之间的流动性是基于它们的物质、组成或成分以外的东西。如果不是这样,生物分子和硅集成电路(1C)芯片之间,DNA的生物化学和计算机软件的算法逻辑之间似乎存在着不可比拟的差异。然而,生物信息学的实践,在承认这种差异的同时,也对基因和计算机代码之间的关系赋予了另一种观点,那就是基于组件之间已确定的关系模式--例如,DNA的碱基对结合方案(A-T;C-G)的生物逻辑,或确定某些多肽链的折叠行为(做出α-螺旋形折叠的氨基酸链)。对于生物信息学来说,这些有据可查的生物分子体的特征已经不仅仅是由其物质定义的东西。它们被生物信息学的概念和实践方面所配置,作为一套可编纂的关系,作为一种模式,可能通过各种物质基质或媒介而存在。
遗传代码和计算机代码之间的流动性,不仅仅是后者对前者的数字化而已。它是一套建立在软件所设定的参数上的技术,它在遗传和计算机代码之间建立了一个开始的等价关系。它们之间的流动性是将指定的关系模式(如碱基对结合、转录、翻译、蛋白质折叠)扩展到生物领域的物质基质(如细胞、染色体、质粒、克隆库)之外。是什么使质粒中的DNA和数据库中的DNA &#34;相同&#34;?对生物数据一词中的 &#34;生物 &#34;的定义。计算机科学给分子生物学概念带来的东西与遗传工程技术带来的东西是一样的:即把 &#34;生物 &#34;看成不仅仅是静态的物质,而是可以在一系列的实验背景下被分离、提取、重新定位和设计的关系和功能。
一旦 &#34;生物 &#34;不是被定义为物质,而是被定义为关系模式,那么遗传代码和计算机代码之间的等价性就可以有一个更实用的基调。一旦生物领域被视为这些识别和选择的模式,那么,从一个角度来看--生物信息学的角度--DNA样本是在试管中还是在数据库中并不重要。一个例子是对核苷酸或氨基酸序列的任何数据库查询。尽管从纯粹的计算角度来看,这只不过是数据串的模式匹配,但从生物信息学的角度来看,这是一个过程的一部分,其中DNA或蛋白质代码的生物逻辑被保存在数据库中--或者,我们应该说,通过数据库。遗传和计算机代码之间的流动性不仅意味着 &#34;基本数据 &#34;或模式可以从湿的DNA转化为干的DNA。它还意味着生物信息学的实践,如数据库查询,同时是算法(遵循计算机逻辑)和生物(遵循计算机中保存的关系模式,即 生物逻辑(Bio-Logic))。
DNA } data
在这两种第一种提法之外,还有其他一些提法,在此基础上开发出了一些功能。一种是数据对身体的说明。在与遗传诊断有关的例子中,数据并没有取代或代替身体,而是形成了一种对生物体的信息缄默的索引--医学遗传学中的DNA芯片、疾病剖析、体外受精的植入前筛查(IVF),以及其他非生物用途(法律中的DNA指纹、军队中的基因ID标签)。DNA芯片在医学背景下的例子重新定义了与实际存在的、体现的主体有关的问责方式。虽然它在医学上的使用还远未普及,但至少在概念上,基因检测和DNA芯片的使用正在将自己融入医学的结构中,在那里,疾病的整体遗传模式往往是处理一系列疾病的主要方法,从阿尔茨海默氏症到糖尿病到癌症。
尽管基因测试和DNA芯片的使用是高度概率性的,而绝不是决定性的,但它们配置基因和计算机代码之间关系的方式可能会对医学产生重大影响。在最好的情况下,基因测试可以告诉病人潜在的发展条件的可能性,鉴于环境和病人健康和生活方式的可变影响,某种特定的疾病可能或可能不表现出来。在很多情况下,这相当于 &#34;听天由命&#34;,而基因检测的最大问题之一是 &#34;决定知道(decision to know)&#34;。
然而,在这些问题之下还有另一组问题,这些问题涉及到基因和计算机代码的混合为身体作证的方式,并通过其数据输出,以医学术语说明身体(遗传模式、可识别的疾病基因、&#34;疾病倾向性&#34;)。同样,就像建立一个等价物和实现一种流动性一样,基因和计算机代码的复合体必须始终保持生物性,即使它的存在在一定程度上是通过计算机技术的信息协议实现的。医学遗传学中的生物分子体被重新语境化为一个 &#34;脚本 &#34;体,在计算机编程中的脚本语言的意义上,这些准语言经常在完整的语言之上运作(例如Javascript、Perl、PHP)。脚本指向生物体中的一个网站,就像Javascript会指向HTML文档主体中的一个网站一样。脚本的这个主体是一个输出数据和技术设备的集合,如DNA芯片、分析计算机和诊断软件。因此,在数据占身体的情况下,我们也可以说,遗传和计算机代码的复合体利用了遗传和计算机代码之间的流动性,对生物领域的索引描述进行脚本化。但是,应该重申的是,这种脚本化的数据不仅仅是数据,而是一种生物逻辑的保存,一种从病人的身体到DNA芯片到计算机系统的关系模式。正是在这个意义上,数据不仅说明了身体,而且数据(遗传和计算机代码的复合体)也将自己认定为生物。
data } DNA
最后,不仅数据可以说明身体,而且身体可以通过数据产生。虽然这个概念似乎更属于科幻小说的范畴,但我们可以看到这种类型的表述发生在利用生物数据来实现湿式实验室,甚至是病人身体的变化的实践中。在这里,我们可以引用被称为 &#34;药物基因组学 (pharmacogenomics)&#34;的领域,即利用基因组数据来设计定制的基于基因和分子的疗法。药物基因组学超越了在实验室里合成药物的做法,原因有几个。它依靠基因组学的数据来设计新型化合物,在这个意义上,它利用了模拟软件,如蛋白质对接应用程序。作为一种商业模式,它还与DNA芯片和其他医疗诊断设备的使用有关,因为这些设备提供了一种手段,可以将病人的基因组与 &#34;正常 &#34;的基因组进行建设性的比较,从而使识别多态性、点突变和其他可识别的异常情况成为可能。药物基因组学不是基于传统药物的诊断模式(改善症状),而是基于 &#34;预防医学 &#34;的模式(使用预测方法和基因测试来防止疾病的发生)。这意味着不仅药物基因组学疗法将根据每个病人的基因组进行定制设计,而且这些疗法将长期融入病人的生物分子体中。
这意味着 &#34;药物(drugs) &#34;被 &#34;疗法(therapies) &#34;所取代,合成(synthetic)疗法被生物(bio)疗法所取代,但这种生物疗法不仅是治疗性的,而且是预防性的。这唤起了免疫系统的形象,它不仅仅是基于对身体 &#34;错误 &#34;的纠正。相反,它是基于生物分子和生物化学设计的原则,应用于优化病人的生物分子身体。在一个更具体的层面上,真正被 &#34;治疗 &#34;的不是病人,而是基因组。药物基因组学的核心是这样一个概念:对基因组的 &#34;软件 &#34;进行重新编程是预防潜在疾病发生的最佳途径。如果说免疫学的传统方法和疫苗的使用是基于合成化合物来对抗某些蛋白质(例如,与病原体的细胞表面识别位点结合的化合物),那么药物基因组学的方法是创造一种环境,在这种环境中,重新编程(或 &#34;退行&#34;)将提供一个实例,在这个实例中,身体将从生物学上自行产生所需的抗体。从某种意义上说,药物基因组学的目的是根本不制造任何药物,而是使病人自己的基因组能够这样做。
为了实现这一目标,药物基因组学依靠生物信息学来查询、分析和运行与基因组和蛋白质组数据库的比较。从这项工作中收集到的数据为患者基因组可能接受基于基因、细胞或分子疗法的背景设定了参数。该程序可能像先前的基因治疗人类临床试验一样简单--将所需的基因插入细菌质粒,然后注入病人体内。或者,该程序可能像引入若干抑制剂一样复杂,这些抑制剂将共同作用于染色体的不同位置,以实现所需的基因表达模式,促进或抑制某些蛋白质的合成。在任何一种情况下,基因组数据库的干数据都会向外延伸,直接与病人的细胞、分子和基因组的湿数据发生摩擦。在这个意义上,数据产生了身体,或者说,基因和计算机代码的复合体为生物领域的退缩建立了一个背景。
编码与身体之间的等价性、来回流动、责任性和生成性,都是实现作为 &#34;生物媒体 &#34;的生物分子身体的方式。正如我们已经看到的,生物媒体的先决条件是这种张力:跨媒体保存生物逻辑,同时也通过重构代码来重构生物逻辑的实例化模式。然而,这种翻译而不转换的情况并不是由计算机媒介决定的;也不是数字领域内的进程所固有的。我们可以建议,在遗传和计算机代码之间有许多关系,其中生物媒体不只是生物被解释为透明媒介的时刻。
虚拟生物学
到目前为止,我们已经看到了生物信息学是如何远远超出了计算机技术在生物科学研究中的简单应用。在将生物信息学视为一套试图调节遗传和计算机代码之间的 &#34;差异 &#34;的实践中,我们已经看到 &#34;生物逻辑 &#34;是如何在不同的媒介中同时保存和调制或重新编码的。我们可以简略地说,就生物分子体而言,生物信息学旨在实现跨平台的兼容性。
然而,在这种对基因和计算机代码的监管中,我们也看到,生物信息学可以被描述为 &#34;没有转化的翻译&#34;。这样做的结果是,DNA和数据之间的多重关系被提出来,既透明又可重新编程。因为来自基因组数据库的数据不是静止的,而是不断地编码、后退和解码,对于这些数据是否在某种程度上是 &#34;DNA本身&#34;,或者仅仅是一个 &#34;东西 &#34;的信息学表示,存在着一种矛盾的态度。当这些生物数据被移植到基因预测、药物靶向和临床试验管道时,DNA不是作为一个 &#34;东西&#34;,而是作为选定的关系模式,无论是在计算机屏幕上还是在体外细胞培养中都是如此。但是,与此同时,生物数据并没有脱离 &#34;湿 &#34;生物领域的参照物而在功能上自主存在。这是一个有选择地强化了生物信息学只是模拟的常识性概念,而湿式实验室的细胞培养则是在与 &#34;DNA本身 &#34;打交道。
生物信息学的主要挑战之一是将这种二分法重新思考为 &#34;生物媒介&#34;,或生物领域的技术重构。正如我们所看到的,&#34;生物媒介 &#34;首先是一个批判性的概念:它指出了生物信息学等领域固有的关于生物学与技术、生物与非生物、生物体与机器之间的划分的假设。但它也指出了这些二分法关系中存在的许多间隙点和裂缝(一种意味着生物是生物的 &#34;技术&#34;)。也许,如果从 &#34;生物媒介 &#34;的概念中可以收集到一件事,那就是在生物技术研究中,什么算作生物和/或生命,不能与阐明生物的技术和工具手段相分离。在生物信息学的情况下,这意味着重新考虑存在于遗传和计算机代码这两种信息之间的紧张关系。如果像我所建议的那样,生物信息学是通过 &#34;没有转换的翻译 &#34;的 &#34;生物逻辑 &#34;来运作的,那么我们也可以问,如何解决前面提到的遗传和计算机代码之间的矛盾,从而改变我们关于生物技术划分的假设。
作为一个建议,我们可以考虑各种 &#34;开源(open-source) &#34;运动是如何对生物信息学做出贡献的。在更具体的情况下,开源可以被描述为一套以特定技术社区为中心的编程和再编程实践。例如,Linux有几个开源社区(Red Hat, Yellow Dog, GNU Linux, linuxppc),其中每个社区都是由一组共同的利益联合起来的,首先是技术。开源社区通常通过下载-调整-上传的程序来工作,在这个过程中,一段代码可能是由多人编写的,并会经历几个版本。从理论上讲,开放源码没有任何东西是专有的,而且一般强调的是基于社区的软件工具开发。因此,开放源码计划必须在标准化和绝对多样性之间进行切换。
尽管早期的生物信息学实例开始于大学,但生物信息学正迅速成为软件行业的一个不小的部分。商业生物信息学套件,可以进行多种类型的分析和搜索,可以轻易地花费数千美元,并且往往需要专门访问公司拥有的专有数据库,以及为客户支持收取额外费用。今天的分子生物学家似乎有两个基本的选择来进行计算研究:要么是大学或政府补贴的工具(如BLAST或GenBank),要么是公司的软件包(如Incyte Genomics, eBioinformatics, 或Perkin-Elmer的那些)。
在1990年5月,出现了第三种选择,一种对生物信息学产业构成挑战的选择,它利用了基于大学的免费项目。&#34;开放源码生物信息学&#34;(或简称OSB)描述了这第三个选择。与其他开源运动一样,OSB是面向基于社区的生物信息学软件工具的多作者和多版本的开发。Bioperl是基于Perl编程语言,一种经常用于处理数据字符串(如文本或数字,也包括DNA或蛋白质代码),也用于客户-服务器交互的文本处理(如CGI)。
事实上,Perl圈子里的一句话是 &#34;有不止一种方法&#34;(TMTOWTDI,有时读作 &#34;tim toady&#34;)。BioPerl项目对Perl的使用始于1996年左右,当时Whitehead研究所的程序员和分子生物学家Lincoln Stein为当时正在进行的基因组测序项目开发了专门的Perl模块。由于基因组测序涉及处理大量的文本数据(DNA或蛋白质代码),Perl被用来帮助自动化和促进生物数据的组织和分析。
正如BLAST等生物信息学工具在 &#34;查询 &#34;的控制原则下运作一样,BioPerl项目通过基于 &#34;源代码 &#34;概念的模块化原则运作。例如,用于DNA或蛋白质代码序列比对的Perl模块的一个部分看起来如下:
Perl模块主要由 &#34;函数 &#34;和 &#34;语句 &#34;组成。函数是 在Perl环境中执行的命令或行动。在BioPerl中,函数可能包括从数据库中检索序列,对齐序列,或编辑序列。这些都是分子生物学所特有的,但实际的函数是Perl编程中常见的(例如,&#34;循环 &#34;函数可以被反复用来逐个字母地对齐一个序列)。语句通常包含在函数中,作为函数的参数。在BioPerl的例子中,这些参数实际上是与数据类型(核苷酸或氨基酸)或被访问的数据库工具(Pfam, Prosite)有关的语句。除此之外,Perl模块所操作的是生物信息学对生物领域的具体看法的数字、字符串和变量(与排列组合中的概率有关的数字,一串序列文本,或表示基因ID标签的变量)。即使不解释上述代码的每一个方面,立即可以看出的是,它涉及基因和计算机代码的特殊组合。事实上,该模块是专门为处理氨基酸序列的生物逻辑在细胞中的信息 &#34;排列 &#34;方式而编写的(注意,是信息排列,不是结构排列(informatically, not structurally))。
Perl模块通常很短,而且是为模块化而设计的,使程序员能够在这里取一段代码,在那里取一些,然后为某一特定任务开发一个专门的模块。在BioPerl的例子中,这涉及到将数据处理能力(操作字符串)与生物数据在细胞中的特殊处理方式相结合;也就是说,BioPerl不仅基于跨媒体的生物保护,而且基于DNA本身处理数据的方式的保护。在这个意义上,BioPerl的源代码的含义并不意味着 &#34;起源 &#34;或 &#34;参考&#34;,而是产生了一个背景,一个环境,在这个环境中,生物数据产生了生物数据的进一步扩展。
BioPerl模块本身并不包含大量的代码;Perl的函数、语句和变量的缩写特性使得代码中的指令较少,而更多的是对语境的设计。Perl不是生物信息学研究的产物;Perl中的许多 &#34;通用 &#34;功能(如显示输出数据的 &#34;打印 &#34;功能)在BioPerl模块中经常使用。相反,这些函数的使用方式使BioPerl不仅仅是Perl编程语言的另一种纯粹的计算实现。在Perl代码将生物数据背景化的方式和Perl代码生成的方式中,&#34;开源 &#34;都意味着代码的转化。有人在开发一个特定的Perl模块时,会下载一些例子,对其进行调整,然后实现它并上传新的版本。那么,这种开源的生物信息学不仅对新的技术发展是 &#34;开放 &#34;的,而且,作为开源,也是高度灵活的,能适应技术社区的不同需求。从某种意义上说,像BioPerl这样的OSB项目是一个有形态的代码体,一个不断被调整和调节的代码体。
然而,主要的问题是,这种代码的转变是否也能成为实践的转变,或者,更根本的是,在生物信息学实践中如何提问的转变。正如我们所看到的,生物技术和信息技术的交叉点有很多名字--生物信息学、计算生物学、虚拟生物学。最后一个术语特别值得注意,因为它表明了我们一直在质疑的生物信息学中的各种哲学假设。那么,一个问题:生物学是 &#34;虚拟 &#34;的吗?当然,从计算机行业的角度来看,生物学确实是虚拟的,在 &#34;虚拟现实 &#34;的意义上,是一个计算机生成的空间,在这个空间里,生物学的工作可以被继续、扩展和模拟。诸如BLAST、分子建模软件和基因组测序计算机等工具就是这种新兴虚拟生物学的例子。从这个角度来看,大量的生物技术研究--最明显的是各种基因组工作--是彻底的虚拟的,这意味着它已经越来越依赖于计算技术并与之相结合。
但是,如果我们再次问这个问题,这次从哲学的角度来看,问题就变了。要问生物学是否在哲学上是虚拟的,就需要考虑诸如生物信息学这样的特定领域如何将其研究对象与变化、差异和转化过程联系起来进行概念化。如果生物信息学的目标是 &#34;没有转化的翻译 &#34;这一技术条件(具有本体论意义),那么 &#34;转化 &#34;是什么意思?正如我们所看到的,转化在技术上与构成生物逻辑的遗传信息的编码、退行和解码的程序有关。在技术上使之成为可能的是一个双重的概念衔接:在遗传和计算机代码中都有一些东西使它们具有等价性,因此它们的来回流动(DNA采样、分析、数据库)。这种技术-概念上的衔接进一步使遗传和计算机代码的工具化成为相互负责的(遗传疾病倾向分析)和潜在的生成或生产(基于基因的药物设计或基因疗法)。
因此,这种情况下的转变,其否定构成了生物信息学成功的衡量标准,与某种变化和差异的概念有关。使用亨利-柏格森的区分,在生物信息学中防止转变是防止一种差异,其特点是定量(或 &#34;数字&#34;)和广泛(或空间化)。生物信息学开发者想要防止的是当人们从体外样本到计算机数据库,再到基于基因的治疗的人体临床试验时,被认为是信息的任何差异(扭曲、错误、噪音)。这意味着要把信息作为一个可量化的静态单位(DNA、RNA、蛋白质代码)在不同的媒体和材料基质上保存下来。
然而,这种意义上的差异--数字的、广泛的差异--并不是唯一的一种差异。柏格森还指出了一种差异,相比之下,它是定性的(&#34;非数字的&#34;)和密集的(基于时间化的变革性动态,或 &#34;绵延(durations)时间[8]&#34;)。德勒兹(Gilles Deleuze)通过将这两种差异称为外部和内部的差异来阐述柏格森的区别,并强调了第二种定性的、密集的差异在内部不断产生差异的能力--来自自身的差异,通过自身的差异。
这种内部的--也许是自我组织的--差异会如何发生?理解这两种差异的一个关键概念是 &#34;虚拟 &#34;的概念,但在其哲学而非技术意义上。对于柏格森(和德勒兹)来说,虚拟和现实形成了一对,与可能和现实的一对形成了对比。虚拟/现实不是可能/现实的反义词;它们是物质能量系统被组织起来的两个不同过程。可能性被现实所否定(现实的东西不再是可能的,因为它是现实的),而虚拟在现实中持续存在(现实的东西在虚拟中不是预先确定的,但虚拟作为一个过程是与现实同在的)。正如德勒兹所指出的,可能是通过相似性和限制来管理第一类差异的(在一定数量的可能情况中,有一种情况被实现)。相比之下,虚拟本身就是这第二种类型的差异,通过分歧和扩散而运作。
考虑到这一点,似乎生物信息学--作为物质和信息秩序的技术和概念管理--阻止了一种类型的差异(作为可能的转变)的实现。这种差异是以来自信息理论和计算机科学的术语来表述的,因此,它更偏重于一个更加量化的、可测量的信息概念(第一种类型的量化的、广泛的差异)。但是,生物信息学--以及分子遗传学和生物学--是否也阻止了第二种类型的质的、密集的差异?在某种意义上,它不会,因为在生物信息学中,任何对生物信息的质的变化的分析必须总是先于对量的变化的分析,就像在分子遗传学中,基因型可以被视为因果关系上先于表型一样。但是,在另一种意义上,这个问题是不能问的,因为在我们探究生物信息学的目标中是否包括这第二种类型的差异(没有转化的翻译)之前,我们必须问在生物信息学中是否首先存在这样一个定性的、密集的差异概念。
这就是为什么我们可能会再次质疑 &#34;虚拟生物学 &#34;的概念;因为,尽管生物信息学在过去的五到十年中一直在快速发展(部分是由计算机技术的进步支持的),它在生物技术研究中仍然面临着一些极其困难的挑战。其中许多挑战与生物调控有关:细胞代谢、基因表达、细胞内和细胞间信号传递。这类研究领域需要的不仅仅是离散的序列数据数据库;它们需要从分布式过程网络的角度进行思考,在许多情况下,这些过程可能会随着时间的推移而改变(基因表达、细胞信号传导和点突变就是例子)。
在其目前的状态下,生物信息学主要面向离散的、可量化的系统的研究,这些系统能够识别称为遗传信息的东西(通过生物逻辑的四重过程)。在这个意义上,生物信息学对一种差异的干预起作用,这种差异的概念与信息论和控制论的传统紧密相连。但是,正如柏格森提醒我们的,还有第二种类型的差异,虽然可以进行定量分析,但同样是定性的(其变化不是程度上的,而是种类上的)和密集的(在时间上的,而不是空间上的广泛)。在目前的生物信息学中很难找到这第二种差异;然而,生物信息学和一般的生物技术所面临的许多挑战意味着这种柏格森-德勒兹式的差异即虚拟的概念所体现的那种转变和动态。
正是在这个意义上,&#34;虚拟生物学 &#34;在概念上并不是不可能的,因为存在某些偶然性。生物信息学的 &#34;数据 &#34;在湿法实验室的生物样本、生物数据库、软件和编程语言、生物分子的预测和设计之间建立了网络,最后,在体外(基因组学和蛋白质组学研究)或体内(遗传医学、药物目标、临床试验)进一步重构。在任何两种情况下,&#34;生物数据 &#34;都意味着完全相同的东西,尽管 &#34;生物逻辑&#34;(关系模式)在每种情况下都是不变的。如果生物信息学要适应生物调控过程(新陈代谢、基因表达、信号传导)给它带来的挑战,那么它将不得不考虑是否有必要对 &#34;生物信息 &#34;的内容进行重大调整。正如已经指出的那样,这种对信息的重新考虑至少要在两个方面进行:关于物质和信息秩序(遗传和计算机代码,生物学和技术,等等)之间的划分的假设,以及关于物质-信息秩序在空间中先存在,在时间中后存在的假设(先有分子,后有相互作用;先有物体,后有关系;先有物质,后有力量)。 柏格森的生物哲学(以及德勒兹对柏格森的解读)提醒我们,尽管当代生物学和生物技术正在将先进的计算技术作为其研究的一部分,但这仍然不一定意味着信息学是 &#34;虚拟的&#34;。
参考
- ^Diaspora
- ^ Greg Egan
- ^polis
- ^emerge
- ^conceptory
- ^ 在生物上讲干实验就是通过计算机模拟以及生物信息学方法来进行研究。湿实验就是通过在实验室里采用分子、细胞、生理学试验方法进行研究。
- ^“自创生”指的是一个能够自我繁殖和维持的系统,最初的定义可以在《自创生和认知:生命的实现 Autopoiesis and Cognition: The Realization of the Living》(1973年第1版,1980年第2版)中找到[1]: 第16页:“正是在这种情况下……他分析了堂吉诃德 Don Quixote的两难处境:走武装之路(praxis,行动)还是走文字之路(poiesis,创造、生产)。我第一次理解了‘poiesis’这个词的力量,并发明了我们需要的词:autopoiesis。这是一个前所未有的词,一个可以直接表达‘在生命系统特有自主性的动态中发生了什么’的词。” 第78页: “自创生机器是一个(作为一个整体)被组织成网络的机器。这个网络是一个部件生产(转换和破坏)的过程网络,它(1)通过相互作用和转换,不断再生和实现部件生产的关系网络;(2)通过将其实现的拓扑域规定为这样一个网络,将机器构成为部件在空间中存在的具体统一体。” 第89页:……“由自创生系统定义的空间是自包含的,这个空间不能用定义另一个空间的维度来描述。然而,当我们提到我们与一个具体自创生系统的相互作用时,我们把这个系统投射到我们的操作空间上,并对这个投射进行描述。” 这个术语是由智利生物学家Humberto Maturana和Francisco Varela于1972年提出的,用于描述活细胞自我维持的化学性。自此这个概念也被应用于认知、系统理论、建筑和社会学领域。自创生理论 - 集智百科 - 复杂系统|人工智能|复杂科学|复杂网络|自组织 https://wiki.swarma.org/index.php/%E8%87%AA%E5%88%9B%E7%94%9F%E7%90%86%E8%AE%BA
- ^柏格森最初是从时间方面给绵延下定义的。他区分出两种不同的时间。一种他叫作“纯一的时间”。这是精确科学(数学、物理学等)所处理的时间。这是一种同质的均匀的流,它外于它所负载的一切事物,对它们一视同仁,不偏不倚。它的节奏不受任何人或物的影响,始终是一样的。 这种时间的各个瞬间能够明确区分开来,它们彼此外在,并排置列。其情形就像物质事物分布在空间中一样。这种时间由众多瞬间构成,是一个数量式的众多体,是可以计数的。这种时间的流动表现为: 后面的瞬间出现时前面的瞬间已不存在。柏格森认为这种时间是不连续的。这种时间好像是一串珠子,看起来这些珠子是连接在一起的,实际上它们是各自独立、相互分离的。柏格森认为这种时间不是真正的时间,而是“空间化”了的时间,实质上是一种空间。 而这个想法然我感觉有点熟悉,果然,从这种“绵延”来看,最初源出于柏格森对古希腊的爱利亚的芝诺那几个著名悖论的思考。 而在柏格森看来,芝诺的错误就在于把不可分割的、连续的时间混同于可分割的、不连续的空间,即把时间空间化了。现在,他终于发现了,这个连续的、不可分割的时间,正是事物的真实面貌,是本体、是绝对。 而多少年来,习惯于用科学的理智概念去分析可间断的、可分割的空间的人们,犯了和芝诺一样的错误,即把可分割性、可间断性空间误认为是事物的本来面貌,把不可分割的、连续的时间本体给间断了、分割了,把时间空间化,因而也就无法认识真正的本体、绝对,即时间。 为了区别于那种已经被理智概念化、空间化而分割的科学的“时间”概念(因为理智概念的分析特征总是分割地表达事物),他用另一概念来表示他的本体性的、绝对的、不可分割性的哲学的“时间”,这就是另一种“绵延”。 这种时间也可以看作是由多个瞬间构成的,不过,它的各个瞬间之间没有分明的界限,它们相互渗透、相互融合,构成一个不可分割的有机整体。如果说这也是一个众多体(由众多瞬间构成)的话,那么,它不是一个数量式的众多体,而是性质式的众多体,因而是不可计数的。在这种时间中,现在总是包含了过去并携带着它走进未来。过去、现在、未来不可分割地连接着。这是时间之流,也就是绵延。柏格森说: “所谓绵延,不过是过去的连续进展。过去总是紧紧咬住未来,逐渐膨胀,直至无限。” 柏格森的绵延,作为真正的时间,不是客观的东西,而是主观的东西。它虽是所有的人的心灵都具有的一种形式,但在每个人那里,并不是同一的,也不是一成不变的。 相反,它受人的心理因素和外物的影响,是因人而异的,有变化的。比如,意志力的加强或减弱、注意力的集中或分散等,都会使绵延的节奏发生或快或慢的变化。另外,真正的时间作为形式,不是外在于它的内容(意识状态或意识材料)的,而是与之打成一片的。 从一个角度说,是真正的时间这一形式规定意识状态这一内容,从而意识有了绵延的性质。从另一角度又可以说,是意识状态决定了绵延的具体状况———其节奏的快慢。柏格森说: “靠我们意识而存在的绵延,是一种具有自身节奏的绵延,是一种与物理学家所说的时间极为不同的绵延。”
|
|