企业研究
    主页 > 综合新闻 >

贵州华大生命大数据研究院执行院长金鑫:基因

本文转自【】;
7月29日,以“赋能实体经济,推动产业创新——大数据与实体经济融合发展”为主题的2020“数博对话”活动成功举办。贵州华大生命大数据研究院执行院长金鑫在本期对话活动中以《基因大数据价值与未来》为主题进行了分享。
strong基因信息与生老病死密切相关/strong
金鑫认为,一方面,人是数据的生产者,生活中不管是打车、买东西,还是其他活动,无时无刻都在产生数据。另一方面,每个人也是信息的载体,这个信息就是构成生命最基本的基因。基因存在于每个细胞里,这是跟每个人都密切相关的东西,但在过去很多年里,它是数字化程度比较低的一种数据类型。
我们每个人都是基因信息的载体,这个载体是承载在细胞里。金鑫介绍:“我们身体里会有多少细胞?有人做过测算,细胞的数量在50万亿个,如果把我们身体里的细胞平铺的话,它可以覆盖1600米的沙滩。每个细胞里有多少DNA?人的基因组序列的长度大约是30亿个碱基。地球到太阳之间的距离是一个天文单位,如果把人体里所有细胞的基因序列连起来的话,它的长度通过计算大约是300多个这样的单位,远远超过了目前的旅行者1号(1977年发出的飞行器,到现在也没飞到),这里面的信息量可想而知。”
更多的数据带来更多的发现。金鑫进一步谈到,每个人都有重大的信息量,这些信息跟我们的生老病死是密切相关的,尤其是跟我们密切相关的健康疾病因素,有遗传的基础、健康的基础等。如果我们知道了未来多长时间内有多大的概率会得某种病,那就可以治疗或者是防控,或者在早期能发现它也可以进行合理干预,比如“三高”的控制等。同时,在这个过程中,需要大数据去回答问题和消除不确定性,因为如果只研究一个人的信息量,这是不匹配的,如果把他的原始数据估出来,一个人的数据在今天至少要达到100G,这个人已经被确诊为糖尿病或者没有,这是在海量数据中海底捞针。但如果有很多人的数据,百万量级的层级里面就能建立联系。
上图是人类将近20年以来所发现的跟各种各样人类疾病有关系的基因位置和区域。金鑫介绍,这张图上,人类1号染色体一直到22号,还有性染色体,图上每一个圆圈就代表了一种疾病或者我们所关心的人体的表型。正因为基因跟几乎任何的疾病都有关系,所以非常希望能更进一步地了解它们深入的联系。
strong基因大数据时代来临/strong
金鑫表示,基因组是非常庞大的序列组合,有时候会发生更复杂的变化,比如有一段少了,有一段增加了,有一段换了位置,有一段贴到了别的地方......这就使现在的技术逐步地去研究它跟疾病之间的关系。在这个背景下,各个国家都发现了这中间蕴含的巨大的价值和可能性,如果我们把生命本身解码,把它跟更多的数据连接起来,更多的价值就能连接起来。这个过程中,希望能够通过大量的数字化,生命的大数据就能产生,去解决怎样拓宽信息和数据来源的问题。
在过去这些年,每一个人的数据是单独来看,它的价值是没有得到释放的,所以在这中间有很多关于科学伦理的讨论,但现在这个价值正在逐步得到显现。
金鑫举例介绍,英国的生物银行(UKBioBank)共享50万英国人基因数据,这50万人现在都已经有了基因数据,这个基因信息就逐步开始跟各种各样类型的数据产生联系。在这个过程中,做了50万的基因信息之后尝到了甜头,尤其是在过去几年有大量的数字化成本,并不是通过英国的科研经费和科技部门,而是来自产业部门,数据价值真正得到使用的部门。有好几家国际领先的制药公司投入一定的经费来支持这个项目,把中间的基因数据生产出来。尤其到了最近,他们完成了一期之后已经开始启动第二期,这中间有大量来自产业界的投入。
为什么产业界会参与做基因数据,尤其是制药企业。金鑫分析道,开发一个新药可能要花十亿美金,但只有很低的可能性能成功。如果在开发的过程中,有来自基因数据的支持,这个药成功的概率就会提高一倍,这中间能够带来的收益非常可观。
金鑫介绍,这中间蕴含着机会,也蕴含着挑战。美国和英国做了很多,是不是只要大家使用他们的研究成果,继续往后做就好了大家发现不是这样的,虽然今天在世界上生活的都同一种人,叫现代人,但是人群和人群之间存在差异,地域与地域之间存在差异,累积起来带来的预测效果差别是非常大的。有人去做了统计,汇集了到今天为止已经发表的跟基因和疾病健康相关的所有研究成果,按照这个研究项目看,50%以上是来自于欧洲人群。如果大家把过去所有做了基因信息的人跟这个数据库比对,会发现将近80%的人是来自欧洲。这给我们非常大的提醒,如果只是依赖于别人完成的成果,很有可能会错过接下来一波信息革命在健康医疗产业里面给我们带来的机会。