随着2009年美国卫生信息技术法案的推出,美国80%的医疗机构实现了病历电子化,全球EHRs的普及率亦逐渐增加。人们越来越关注如何基于EHRs开展二手数据分析,以期最终促进医疗服务的改善。但由于EHRs收集的初衷是为了临床诊疗而非临床研究需要,因此利用EHRs开展临床研究仍存在很多问题,如:数据信息的完整性、就诊人群的代表性、数据处理的复杂性等。
那么,我们如何利用EHRs开展临床研究呢?在面临上述问题所致研究结论产生系统误差时,我们又如何控制偏倚呢?
一、电子病历数据库在临床研究中的应用及偏倚控制
1、电子病历数据库的定义及基本特征
无论哪种研究设计方法,临床流行病学研究的核心均是在控制了混杂变量的情况下,探讨暴露因素与结局之间的关联。
定义:EHRs是医疗机构对门诊、住院患者(或保健对象)临床诊疗和指导干预的数字化医疗记录,包括患者历次就诊的人口学信息、生命指征、诊断、实验室检查、用药、影像学检查、既往病史、免疫接种史等[1]。
EHRs信息与临床研究中变量的对应关系:
EHRs信息可对应临床研究中的不同角色,提示利用EHRs开展临床流行病学研究的可行性。但由于EHRs信息的收集是基于临床诊疗需求,因此患者使用何种药物、进行何种检查以及被随访的频次等均受到患者及医生抉择的影响,最终影响对疾病患病率、发病率及暴露因素风险的估计。同时,基于不同环境建立的EHRs,如某单一医疗机构EHRs、区域医疗健康数据库,其涵盖的人群特征、用药信息、检查、诊断及其他个人信息(如人口学特征、生命指征、家族史及个人史等)的数据特点不同[2],导致在回答临床研究问题的优势与局限性方面亦不同。
我国目前各医院EHRs的现状分类:
1) 以各种临床业务为中心,患者信息散落在多个相对独立的系统中;
2) 对于大部分三级医院,各医疗机构内部已实现了以患者为中心的信息收集,但数据库中仅涵盖了患者在该医疗机构的就诊信息;
3) 极少数城市已实现建立区域化的EHRs,解决了区域内各医院数据的信息共享。研究者需根据所使用的EHRs特点来确定其可能回答的临床研究问题,并对结果进行合理解释。
2、基于电子病历数据库可以解决的研究问题
EHRs作为针对患者临床诊疗相关健康信息的纵向电子记录,可实现对疾病转归及诊疗全过程的评估。
u 描述疾病的流行病学特征及分布,
u 探讨疾病的疗效或病因,
u 评价真实就诊环境下的依从性、疗效,以及政策对于临床用药的影响等。
针对不同科学问题,其对应的研究设计方法不同,包括:
v 横断面研究、生态学研究
v 病例对照研究、队列研究
二、疾病流行病学特征及其分布描述:
1. 患病率
患病率是指研究特定时间点或期间某特定人群现患病者所占比例,明确目标人群并实现准确诊断是获得真实患病率估计的前提。
疾病患病率的估计通常基于严格的抽样调查而获得,耗时耗力。而EHRs中涵盖的大量患者的临床诊断及检验信息,为在较低成本下描述疾病的发病率及患病率提供了可能。
2. 发病率
EHRs作为针对患者临床诊疗相关健康信息的纵向电子记录,原则上研究者可利用其构建回顾性、前瞻性或双向队列以估计发病率。但其根本问题是不能仅仅依赖EHRs区分新发和现患病例。对于上述情况,可采用查病历或补充调查的方法应对,但其工作量大,费时费力,同时对于无住院病历的患者很难实现病历查询。研究者提出了多种解决EHRs新发病例确定问题的方法。最简单的方法是将首次诊断日期确定为新发日期,但前提是该数据库能长时间覆盖某个区域或全国人群,同时疾病严重程度高[8]。但对于大多数疾病,尤其是慢性病,上述方法并不能很好地区分新发和现患病例。
通过上述入选和排除标准,199 451例慢性乙型肝炎患者中72 458例纳入该研究。对于使用抗病毒治疗者,队列随访起点为首次核苷类药物处方时间,而对于非抗病毒治疗者,则以首次使用保肝类药物为随访起点;随访终点为发生肝癌、死亡或2010年12月31日。
最终研究显示,抗病毒治疗者发生肝癌的风险较非抗病毒治疗者减少。
综上所述,在目前这个充满前景、陷阱和挑战的大数据时代,仍需回归流行病学的本质,结合EHRs的具体特点和所提出的科学问题,充分考虑研究设计、数据分析等过程中出现的偏倚,并结合巧妙的设计和合理的统计学分析方法才能真正实现EHRs与临床研究的整合。