网易科技 10月15日消息,今天,第二届网易未来科技峰会在北京悠唐皇冠假日酒店隆重举行。在下午移动医疗论坛的主题演讲环节,国家卫生信息共享技术及应用工程技术研究中心执行副主任冯东雷做了“关键问题以及对策”的主题演讲。
冯东雷认为,医疗健康大数据研究面临着传统临床研究和基于大数据的临床研究。而且数据类型和结构复杂多样,这里主要是业务数据和外部数据,和知识数据;结构化数据和结构化数据;数据库和大数据存储的问题。
另外,从技术到业务也有巨大鸿沟。数据分析之后,如何开发基于大数据的应用也是面临的主要问题。因为,医疗健康大数据归根到底是要应用。
以下是冯东雷发言的现场实录:
冯东雷:很高兴这么一个机会跟大家聚集一堂讨论移动医疗和医疗健康大数据,我想从几个方面来说,首先谈一谈我们现在做的移动医疗或者做医疗健康大数据的工作基础。
随着医院信息化、公共卫生信息化,包括基层卫生信息化、运城医疗信息化,前期更多由政府和医院来投信息化,已经做了很多的积累,比如说在上海有一个申垦医院发展中心,它从06年开始建立区域医疗的第一个平台,成为了医联工程,到目前为止连了38家三级甲等医院,负责3900万就诊人口,数据规模截止到去年我们是150tb的规模,而且在08年开始运行上线两年以后就开始抓这个数据质量了,所以它的数据正确率超过了95%,应该说是国际上目前最大的医疗电子健康档案库,这个项目也获得了众多的荣誉,特别是在13年获得国家科技进步二等奖,这是我们开展后续的做医疗健康大数据的比如说科研或者是说我们做一些实际的应用,包括还有增值服务得罪重要的基础,当然其实我们万达在全国各地已经不是仅仅在上海做这样的一些项目了,随着国家医改政策特别是09年新医改政策把区域医疗或者是区域的卫生信息化以剪子电抗档案为中心的信息化的工作放到了很重要的地位。包括刚才尹岭主任和平安好医生都提出了电子健康档案,我们都做了很多的区域卫生信息化,包括一些国内的大城市,除了上海包括广州、成都、武汉、西南、南京、宁波等等,这些项目其实应该说一方面本身积累了大量的数据,其实这也是一些优质医疗资源的聚集地,包括了科研、包括了临床本身都是高地,形成了科研、临床、数据三个高地的工作基础。实际上这个问题我们在全国范围内搞医疗健康大数据奠定了很好的基础。
刚才的两部分内容还是回到了一开始说的是由政府或者是由医院牵头来做的数据整合和数据的积累,但现在随着互联网的发展,这种语音模式的发展,从前年开始政府逐渐地提出以ppp的方式来建立一些新的项目,可能就不是由财政拨款来做了,所以我们从去年和上海市卫计委签约夺了一个上海健康云,从技术角度就是物联网、移动互联网,包括云计算包括大数据。这个和以前的重大的区别在哪里?原来我们是在医院采集数据,是临床中核心的部分,一旦离开医院到底有没有吃药,到底这些体征状况是怎么样发展的?疾病到底是变好了还是恶化了?还是死亡了?不清楚,除非第二次再到医院,否则在这两次就诊之间的数据是不连续的,也不了解一些情况。如果说我们随着移动互联网再加上健康物联网和可穿戴设备,延伸到患者个体和家庭中去,可以填补两者之间的空白这样才能大数据的闭环,我们前期做医联工程的时候,覆盖了38家三甲医院,主要的重大疾病最终都回到三级医院去,实际上对重大疾病的覆盖应该说人群是全面的。但从人群面是全面,可是刚才提到了在两次接诊间的数据是缺失的,所以通过我们来做上海健康管理云的项目,其实填补了这部分的数据的缺口,实际上形成了一个数据从密度的闭环的效果。所以这三方面工作应该是说现在做医疗健康大数据具备了非常好的基础。
下面谈一个核心的问题,医疗健康大数据应该说已经不是说现在一些概念了,其实在两三前有了数据积累已经开始做这方面的探索了,在探索中我们也发现了一些问题,这些问题的提出比怎么解决更重要一些。第一是国家的人口健康数据共享平台,包括我们建的医疗健康大数据,其实可能和我们传统意义上互联网大数据是不太一样的,比如说百度或者google为代表的主要是搜索网页和社交信息为代表的大数据可能和我们现在讲的临床通过实际的生产系统产生的大数据是不一样的。但如果说同时基于这样的大数据来做临床的研究,本身和我们尹岭主任讲到的传统的科研的数据分析也有很大的不同。上面我提到了两组,传统的临床有一个研究是随机对照组的研究的模式,现在其实如果我们有所有的全市的就诊人群的就诊的数据的话,实际上是另外一种大数据。实际上这两种研究方式就发生了不同。其实从临床研究的角度来说队列、对同一个样本采集的项目非常多,远远超过临床上采集的数据但由于对这个样本本身有很高的门槛,什么样的人才能进入这个队列,真实的问题是各种各样的,年龄不限、其他的并发症也不限。这种就诊下来的疾病对我们的研究会更有意义,但这两种的数据的范围和密度是不一样的。我们存在怎么利用现有的数据来开展大数据服务于临床研究,这是一个非常重要的。
还有一个问题是我们现在有了这样一个大数据,其实是不是能满足研究的需要呢?其实刚才我在讲到我们的健康云的项目中已经回答了这个问题,可能现在如果我们只是临床的研究可能缺乏一个闭环的数据,具体怎么解决现在没有准确的答案,可是会形成一种新的颠覆式的新型的循证医学的研究。
另外技术角度说数据类型也会发生很多的变化,原来我们只是因此临床为中心的业务数据,现在我们会结合互联网、会结合健康物联网包括还有前面的气象环境,包括还有基因等等的数据,包括除了我们有业务数据的话,这些数据来源多元化怎么样把它进行规范化处理有很高的语义化的支持数据的结合。当然还有非结构化数据。但最主要的问题是从技术到业务有一个很大的鸿沟,大家比较有震撼性的是google提出了流感预测的问题,最近对流感预测从一开始的非常振奋到后面说算法要随着时间去调整,到现在google关闭掉了,这和传统的研究和大数据的研究如何平衡相结合的。
还有一个是医疗健康知识库的支撑的缺乏,希望这种医疗的指南是存在的,但大量是缺失的,这块是知识库的问题,怎么样有知识库去分析和利用大数据,包括知识库也有不同的水平,最简单是把教科书导进去,最终是机器可处理,可以结合数据进行处理的技术库,同时带来了非结构化数据如何处理的问题,还有传统的挖掘技术的并行化的问题。这是我们提出的初步的技术路线,到主题库的建立,包括分析挖掘以及基于分析挖掘的结果做基于大数据的健康的应用,其实我们的感觉就是研究先于应用,可能是要先做大数据的研究,这里我不展开了,同数据采集的九游会国际娱乐的业务范围包括专科的全面性和个体数据的前面性和web数据的全面性这几个角度进行数据架构的设计,包括平台的整合,因为我们不吸收做一个主题挖掘就重新从数据采集到数据整合到数据应用,应该是把它做成一个工具化、平台化的体系。
最终还是要有应用怎么样把大数据的可能性和应用结合起来,基于健康数据和知识库开发一种新型的应用和服务。我罗列了一些不展开了,包括从生物医学本身的科研包括临床公共卫生的,包括医药的,包括医疗保险的、卫生管理的,中医药和健康服务其实都有很多的应用场景,所以只能说是罗列了一定的场景,还没法儿提出规范化的体系来解决医疗健康大数据的问题。同时还有一些其他的紧密相关的问题。
我们的信息工程中心,这是由万达信息和上海申康医院发展中心共同建立的,13年科技部批复我们建立一个国家级的中心。除了刚刚说的医疗工程包括上海健康网也是我们一个主要的工作,包括我们也在这个过程中参与了很多卫生部的、卫计委的相关的标准的编制的工作,以及承担了国家的一些课题,包括去年我们中了两个863的生物医药大数据的临床的课题,一个是重大区域的一个是区域医疗的,同时我们也参与了多个行业内的组织。我的汇报就是这些。谢谢大家!