大数据技术用在名老中医经验传承的优势与不足
数据挖掘技术是利用网络技术进行有目的、有探索性地获取数据中隐含的规律和知识,也被称为数据库知识发现,是指从大量、不完全、有噪声、模糊、随机的数据中提取隐含在其中的、人们事先不知道但又潜在着有用信息和知识的过程。
数据挖掘的技术:
1、频数分析。可得出最常用的数据关系,是使用最广泛的算法。
2、关联规则分析。是一种无向数据挖掘方法。 它从大量数据项中寻找有意义的关联关系。
3、聚类分析。聚类分析是一种无监督数据挖掘方法。
4、因子分析。是一种变量简化技术,可用于找出支配相关关系的有限个潜在变量,以及找出关联紧密的药物。
5、贝叶斯网络。是一个有向无环图,由代表变量结点及连接这些节点的有向边构成。贝叶斯网络可以将具体问题中复杂的变量关系在一个网络结构表示,通过网络模型反映问题领域中变量的依赖关系,可用于构建中医专家诊疗系统,研究中医证型与疾病、症状与证候之间关系。
6、神经网络。也称作连接模型,是一种进行分布式并行信息处理的算法数学模型,主要通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的,与贝叶斯网络有相似之处,但神经网络对于数据处理更为灵活。
7、复杂系统熵方法。是一种非监督的算法模式,它能自主地从海量数据中提取信息量最大的组合,特别适用于高度离散性类型的数据。该方法常用于研究疾病、证候、方剂的相关性,往往能得出一些隐含信息。
8、支持向量机。通过将非线性数据赋予高维特征性,构造出最优分类超平面,可以弥补传统算法过拟合缺陷,主要用于小样本、非线性及高维模式识别的问题解决,对大样本及复杂数据模型处理有一定局限。
数据挖掘技术的优势:
1、研究内容丰富。数据挖掘技术应用于中医药研究二十余年,之前由于缺乏研究数据,对算法操作复杂等原因,数据挖掘技术主要用于研究名老中医用药经验。 随着数据的多样化及算法的简化,研究疾病广泛,研究内容涉及中医、中药、针灸、证候、治则治法等各个方面,研究对象除了经验丰富的临床医家,亦可研究古代典籍,临床文献等,也可以研究将某疾病领域专家用药规律集中起来,研究其中异同。该算法也在不断发展和完善,现在研究往往采用两种以上算法,并根据研究目的灵活组合算法。 对于解决问题来说,算法只是提供一种方法,并不是解决某种特定问题的唯一方法,也不存在所谓优方法,大部分算法之间也并不互相排斥。
2、操作简化。随着大量数据的获取,数据重复、冗余,算法操作复杂,非专业人士难以熟练操作等问题,数据挖掘软件便是顺利进行数据挖掘的工具。 目前国内有代表性的中医辅助诊疗系统有中医传承辅助平台、中医临床科研信息共享系统、中医诊疗大数据智能分析系统古今医案云平台、
中医医案知识服务与共享系统等,这些平台可用于总结名老中医用药经验,发现最佳配伍,研究疾病辨证规律,如证类、证素研究、症状分析、病机研究、病位分析等。 根据研究需要选取合适的软件,如中医传承辅助平台主要有频数分析、关联分析、频数分析、熵方法,主要用于研究名老中医临
床常用方及挖掘新方。
3、数据可视化。中医药数据属于知识密集型数据,往往较为复杂抽象,如果能将分析内容“多维度”呈现,则能更好地分析事物之间的关系。 偏序结构图不仅可以从宏观共性中发现事物存在的普遍性,还可以从微观个性中发现事物存在的独有性。 重要的是偏序结构图可处理的数据范围广、数量大,但形成的结构图并不复杂且无交叉,是表征事物间联系的有效的可视化技术手段。
4、与现代实践融合。中医药现代研究成分复杂,往往将药物提纯后研究,但不符合中医的特点,网络药理学基于“疾病-基因-靶点-药物”相互作用网络,通过网络分析,系统综合地观察药物对疾病网络的干预与影响。它体现的是多分子协同作用,与中医整体观及中药复方相似,故近些年网络药理学研究很多。
数据挖掘技术的不足:
1、数据不够真实准确。大数据时代后,“以数据为导向”是真实世界中医临床科研范式的前提与技术关键。一方面由于中医临床术语不统一或地域习惯,往往导致数据存在重复、歧义、缺省、多义、含糊等问题;另一方面数据挖掘处理的对象是随机的交易数据,而挖掘医案都是经过人工挑选的经典案例,都对数据挖掘质量有一定程度的影响。中医药领域数据多为广义小样本数据,研究者多为高校学生,研究多为某一医家诊疗经验,往往会出现临床病历研究中样本数有限,但包含的维度(如使用的中药种类、症状、证候等维度)则可能远大于样本数。
2、挖掘软件相对局限。使用文献计量学方法研究近些年发表的中医数据挖掘相关文献,得出目前研究方法多为关联规则、聚类分析、神经网络、频数分析、因子分析;传统的数据挖掘方法往往给出的是相关性的大小,而缺乏对因果关系的解释。 且目前数据平台也有着规模小、建设重复、缺乏统一标准、检索功能不完善、处理数据方式单一,研究内容同质化等不足,当前数据挖掘技术有待形成共识性操作规范,建议组建多学科团队开展相关工作,完善优化技术方法,制定科学规范的技术标准。
3、结果缺乏深度解读。数据挖掘采用不同的技术往往能得到多样的结果,目前对研究结果的解读往往侧重基础分析,而缺乏深层次的分析。单一的研究方法存在不能全面真实地反映和传承名老中医学术经验等不足,需将定性访谈、数据挖掘等方法综合运用才能实现对名老中医临床经验的全面继承。 对于数据挖掘结果解读不够深刻是个普遍认识,一方面需要从数据挖掘每个阶段把控质量,另一方面应对结果进行临床验证,机制分析等,对研究结果去伪存真。
数据挖掘技术的未来趋势:
1、数据规范化。中医数据存在重复、歧义、缺省、多义、含糊等问题,中医数据还有待细致加工,首先要把控的就是医案文献的医案文献的标准化、规范化,无论是古书典籍还是临床医案,四诊信息、症状指标、患者症状都依赖于医师和患者的主观诊断,且典籍中往往有患者信息缺失,而患者的失访或接受其他治疗均会影响数据采集。 另外由于中医数据的多义、含糊,规范中医临床术语标准,利用数据库实现中医临床文献的自动标注和统计分析,数据开放共享,最终会建立一个面向全国的开放的中医数据平台,从采集、录入、统计、挖掘各流程确保数据质量。
2、系统专业化。数据挖掘系统专业化一直是我们追求的目标,而神经网络、贝叶斯网络、决策树等将目标一步步变为现实。 但目前研究范围小,诊断精准度仍不够,更重要的是不具备中医诊疗思维,且中医专家系统依赖于数据挖掘、图像处理、模式识别等方面。专家系统未来应在四诊客观化、证候规范化和辨证诊断智能化上多加研究,以期在技术上有更多突破,进而提高挖掘的效率和准确性。
3、数据挖掘与多组学整合研究。数据挖掘与多组学整合研究联合是目前的趋势,两者相辅相成。 数据挖掘可用于挖掘核心药物组合,多组学整合研究一方面可用于验证数据挖掘结果,一方面可有效预测与分析药物的潜在作用与起效机制,有利于新方新药的研发。