点击右上角微信好友
朋友圈
请使用浏览器分享功能进行分享
临床试验是指通过人体(志愿者,也称受试者)进行的科学研究,目的是确定一种药物或一项治疗方法的疗效、安全性以及存在的副作用,对于促进医学发展和提高人类健康有着积极的作用。临床试验的受试者招募一般是通过人工比较病历记录和临床试验筛选标准完成,这种方式费时、费力且效率低下。因此,临床试验面临诸多困境,比如受试者招募困难导致临床试验难以按期完成、入组患者流失影响试验的有效性等。近年来,随着临床试验数目越来越多、设计越来越复杂,基于自然语言处理和信息抽取的临床试验受试者自动化招募系统开始崭露头角呈现出不错的效果,且具有很大的实用前景和医学临床价值,然而目前这类研究大多针对英文临床试验筛选标准及英文电子健康记录数据。近些年来,随着中国医疗信息化的发展,中文电子健康数据的相关研究已经取得了很多进展,然而针对中文临床试验筛选标准的自然语言处理研究很少,因此通过自然语言处理以及人工智能(artificial intelligence,AI)技术推进中文临床试验筛选标准的结构化和标准化等工作,对于推进中国临床试验研究的自动化和信息化发展具有重要意义。
现任医兰达(深圳)网络科技有限公司主任工程师兼高级后端研发工程师的梅术铭,是杰出的智能文本处理专家,作为这一领域的开拓者,他针对中文临床试验筛选标准短文本分类,带领团队提出了一系列创新性解决方案,极大推动了中国医疗信息化的发展。2020年2月-2023年7月,梅术铭在中国数字技术产品和服务创新领导企业iSoftStone担任主任工程师期间,为10余个重要行业服务超过1000家国内外客户,其中超过200家客户为世界500强或中国500强企业,帮助iSoftStone成为中国领先的软件与信息技术服务商,2022年3月15日,iSoftStone在深交所创业板上市。
以“人工智能+医疗健康”为主题的第五届中国健康信息处理会议(China conference on health information processing,CHIP2019)共享测评的任务三,是聚焦于“中文临床试验筛选标准短文本分类”,希望能通过最新的基于自然语言处理技术和深度学习算法的人工智能技术,促进中文临床试验筛选标准的相关研究。梅术铭团队通过任务三测评首次将44种语义类别引入中文临床试验筛选标准短文本分类问题。这一研究成果填补了中文语义类别研究的空白,为后续的研究奠定了坚实的基础。更重要的是,梅术铭团队通过分析与标注超过38000条筛选标准的语料开发了高质量的数据集并总结出了显著的学术成果。这些成果被广泛用于后续的医疗自动化项目,为临床试验的优化设计和自动化患者招募系统提供了技术支撑。
梅术铭
梅术铭指出,临床试验筛选标准的语义类别研究在优化筛选标准设计和促进受试者招募方面具有重要意义。例如,2017年美国临床肿瘤学会(American society of clinical oncology,ASCO)通过研究临床试验入组患者和真实世界的患者分布,提出对多种筛选标准类别应该优化并适当放宽限制条件,这些筛选标准包括儿童患者入组成人癌症临床试验的最低年龄限制、纳入艾滋病病毒(或乙肝、丙肝)感染者、纳入器官功能障碍者、纳入第二原发癌或有既往史者和纳入脑转移癌症患者等。不同语义类型的筛选标准在医疗研究中扮演着关键角色,而准确识别这些标准的语义类别是实现优化和标准化的前提。
近年来,梅术铭团队的研究聚焦中文医学短文本分类,以预训练语言模型(如BERT、ERNIE、XLNET)为核心,结合神经网络模型与统计学方法,提出了创新的分类框架。梅术铭创新性地使用了基于预训练语言模型,即变换器双向编码表征模型(BERT)与模型融合的方法,使模型的宏平均F1值达到了0.81,为中文医学短文本分类设立了新标杆,显著推动了领域技术的发展与应用。
此外,梅术铭还对数据预处理技术进行了优化。梅术铭强调,数据预处理可以使模型更好地提取到文本中的特征,提高模型的预测和泛化能力。在此次测评中梅术铭团队对数据进行的预处理操作主要包括去除重复数据、删除特殊表述(如长串数字、停用词和标点符号)、变形词识别和替换(如繁体字转换为简体字、英文大写转换为小写、全角字符转换为半角字符、特殊符号替换、同音形近字替换)、将过长的文本截断,这些技术措施有助于减少噪声数据对模型的干扰,从而进一步提升模型的准确性和泛化能力。2022年11月,他独立研发的“Supertext智能文本系统V1.0”(简称:Supertext)获国家版权局颁发计算机软件著作权登记证书(登记号:2022SR1467317),截止目前,Supertext已被广泛应用于教育、医学、法律、电力、建筑以及人工智能领域。
梅术铭的学术研究颇丰,比较有影响力的研究包括“智能文本处理所涉及的文本表示方法及对比研究”、“智能文本处理中的词法分析技术及算法研究”、“智能文本处理模型在复杂文本场景下的鲁棒性提升策略”、“智能文本处理模型的构建流程及关键环节详解”,相关研究填补了行业的空白,极大地促进了智能文本处理技术的发展。
目前,梅术铭的重大原创研究取得了学术界的极大认可,并且在实际应用中也得到了充分的验证。值得一提的是,这些成果已经被广泛用于支持药物研发和临床试验患者招募等关键环节。梅术铭介绍,传统的临床试验受试者招募一般是通过人工比较病历记录和临床试验筛选标准完成,这种方式无疑是费时、费力且效率低下,然而使用基于研究成果开发的筛选标准自动分类系统,可以快速匹配患者信息与临床试验需求,有效促进受试者招募,进而为医院和研究机构节省了大量人力物力。
梅术铭表示,在未来的研究中,他将重点优化小类别的分类效果,改进模型对稀疏数据的处理能力,并且探索更加精准的分类方法,以期进一步提升医学短文本分类系统的整体性能。(黄文秀)