谈谈人工智能与数据治理:我们的系统为谁而建?(下)

智能建筑
发布日期
2019-04-09 06:46
发送

AI+大健康;AI+医疗;人工智能,NLP


【编者按】在真实的场景下,NLP后的数据业务应用,由于准确率的问题还是需采取“人工智能+人工审核”的方式来做到双重保险。

本文发于e医疗,作者:孙立峰;经亿欧大健康编辑,供行业人士参考。

自然语言处理(Natural Language Processing,NLP),是指人与计算机之间,通过“说人话式”语言进行有效通信的各种技术和方法。由于语言的复杂性,处理的过程会涉及“理解”,因此NLP被认为距离人工智能最近的任务,也被称为“人工智能的皇冠”。

毕竟我们“人说人话”有时候都很难,更别说计算机了。

从临床科研平台信息化建设的发展历程看,要想解决数据的完整性,就要通过ETL对多源多模态的数据进行整合,也即整合不同厂商的DB,而且有些因为更换系统原厂商已经不再为医院提供服务。一家医院可能主流的数据库ORACLE、SQLSERVER、MYSQL、DB2都有在用,市面上还有后关系型数据库Caché。更换系统后,解决数据完整性的问题,需要对历史数据、生产数据全面整合。这也是为什么医疗公司的程序员们越来越吃香,被数据治理AI公司招揽得越来越多,到甲方工作的也越来越多——需求摆在那里,甲方给的待遇也越来越高了。

数据完整性的解决,也是为数据仓库生成高质量后结构化数据的过程,NLP就是在这个过程中发挥作用,通过拆解语义元素分词(区分鱼和虾),命名实体识别(确定这条是鱼,那支是虾),句法分析,语法分析,解决数据结构化问题;然后通过术语网络,将数据标准化、归一化,解决数据标准化(鱼是鱼、虾是虾)问题。通过医学知识图谱的关联和推理,解决基于医学知识的推断问题,构建患者画像,在科研应用、辅助诊疗、真实世界研究等方面才能深度应用。

数据的结构化是怎样炼成的

(1)分词

对于机器学习来说分词本质上是一个分类问题,例如:武汉市长江大桥,机器可以理解为:武汉_市长_江_大桥,武汉市_长江_大桥等等,机器会判断一个字在一句句子中是作为词的起始字(B),词的中间字(I),词的结尾字(E),还是一个单字词(S),这样就需要对文本进行标注,通过机器学习算法预测某些上下文的时候,判断某个字作为BIES四个类别中哪一个概率最高,最后通过BIES的识别完成分词。

(2)词性与关联识别

一句检查报告的放射学表现:右侧胫骨髁间突骨端边缘见骨质增生变尖,关节在位、关节间隙未见狭窄,未见骨质破坏及异常软组织影。

我们要知道“右侧”是方位,“胫骨髁间突”是身体结构,“骨端”、“边缘”是局部位置,“增生”、“变尖”是描述;我们要知道“右侧+胫骨髁间突”是身体结构方位的限定,“骨质+增生”是身体结构的变化。

命名实体识别(NER)就是从文中识别出命名性指称项,属于什么实体类别:疾病、检查、治疗、指标、症状、身体部位……

命名实体关联提取(NERE)就是对上一步得到的命名实体进行处理,把存在关系的部分用关系类别(包括:限定关系、修订关系、因果关系……)将他们联系起来,然后进行语义依存分析。

术语标准化与知识图谱

标准的应用是很难的一件事情,比如ICD-10。最早是病案科(室)专业的编码员去编码,随着电子病历的推广,有些医院前移到临床医生填写、编码员审核,有些公司CIS系统还开发了俗名诊断与ICD编码的映射关联。

如医生可能写:二型糖尿病、II型糖尿病、2型糖尿病、非胰岛素依赖糖尿病,系统都自动关联到E11.952这个ICD编码,但这各对照工作费事费力也会存在遗漏与偏差。这就需要术语标准化将数据归一化。

同时我们还想知道糖尿病是内分泌疾病,糖尿病是代谢性疾病,糖尿病是胰岛功能紊乱,这就需要构建强大的术语网络建立知识图谱。

术语集如疾病库和临床发现库基于SNOMED-CT、MedDRA、ICD-10、ICD-9-CM-3、RadLex、CMeSH,如药品和检验库,基于CFDA药物信息和LOINC,同时还需要储备大量的术语资源库,将各术语库内部关联,根据分类、逻辑以及临床习惯分类,如影像与疾病库的关联、检验库与疾病库的关联等等。

利用自然语言处理、术语标准化、医学知识图谱三大核心技术,解决医学数据完整性、医疗数据标准化、医学与算法融合的三大医疗数据利用的核心问题。这样,高质量的数据就可以深度应用。

责编:春林
THE END

本文标题:谈谈人工智能与数据治理:我们的系统为谁而建?(下)
本文链接:https://www.hknewsw.com/znjz/481.html

相关热点

一方面,工业生产能力迅猛增长,高技术装备类产品发展迅速。 2018年,粗钢产量比1949年增长5799倍; 原煤产量比1949年增长115倍; 平板玻璃产量比1949年增长803倍; 2018年,计算机产量为...
物联资讯/ 2020-01-24
盘点2019年十大不可错过的随身数码产品 2019年马上就要过去,让我们一起来看看2019年都有哪些电子产品让人眼前一亮 1、腾讯任天堂电子游戏机 Switch 12月10日腾讯正式发售发售任天堂...
物联资讯/ 2019-12-30
随着全国人民法律意识的增强,如今只要有金钱的往来,都会以合同来对双方的行为进行约定和规范。 但是对于没有学习过法律相关知识的人来说,根本不知道合同里面条款要如何撰写...
物联资讯/ 2019-12-09
2019年8月10日,超强台风利奇马在浙江温岭市沿海登录,随后其纵穿浙江、江苏两省并移入黄海海面,又于8月11日20时50分许在山东省青岛市黄岛区沿海再次登陆。 台风利奇马过境后,共...
物联资讯/ 2019-12-09
大家都知道,重卡自重本来就大,加上车上的载重,在行驶过程中会形成很大的惯性和冲击力,在行驶过程中任何疏漏都容易造成严重的交通事故,所以北奔重汽在生产重卡时,一直特...
物联资讯/ 2019-12-06
想要促进国家经济快速发展,基建是不可或缺的一部分。比如城市间的公路、铁路修建、城市中的车站、桥梁建设等。基建过程中需要运输物资,这个任务则由重卡来完成。 国家为改变...
物联资讯/ 2019-12-05

相关推荐

3