脾胃病属于临床常见疾病,包括9类疾病:胃痛、痞满、呕吐、呃逆、噎膈、腹痛、痢疾、泄泻和便秘。常见证型包括:脾胃虚寒证、寒邪内租证、肝脾不调证、虫积肠道证、胃气虚寒证等等。
Neo4j图数据库是基于图论实现的一种新型NoSQL数据库,具有强大的图形搜索能力和一定得横向扩展能力,在中医药知识图谱技术体系中可以作为图数据的储存仓库,支持各种图算法和应用。
知识框架构建
疾病的治疗过程包括临床辨证与诊治两个部分,辨证通过临床症状确认疾病名称与对应的证型,确认是否有证候的加减,诊治需要确认治法治则、用方用药。因此,中医药脾胃病知识图谱采用疾病、症状、证候、证候加减、方剂、中药、工具书7类实体以及它们之间的关系来表达疾病的辨证论治的过程,构建知识框架。
实体抽取
中医实体抽取是将疾病、症状、证候、证候加减、方剂、中药、工具书7类实体抽取出来。教材中的知识属于非结构化数据,我们需要抽取实体、关系和属性:
l 实体抽取,也称为命名实体识别,此处的实体是指一个较大的概念,如疾病、证型、临床症状等等。
l 关系抽取,也就是实体和实体之间的关系,这是文本中的重要知识,但实体之间的关系在文章中并不是准确而清晰的,需要采用深度学习等技术手段(或者人工进行判断、抽取)将关系信息从全文中提炼出来。
l 属性抽取,也就是实体的属性信息,和关系比较类似,关系反映实体的外部联系,属性体现实体的内部特征,在功能性胃肠病知识图谱的实体构建中,为实体增加了属性“type”“id”和“system_type”,便于三元组的构建。
关系抽取
作为一种语义网络,实体之间的关系是构建知识图谱的一项重要内容。根据知识框架,共确定了以下关系: