赵月华,朱思成,苏新宁.面向网络虚假医疗信息的识别模型构建研究——一种基于预训练的BERT模型[J].情报科学,2021,39(12):165-173.
摘要:【目的/意义】解决获取虚假网络医疗信息数据集时专业知识不足的问题,帮助在小样本领域构建虚假网络医疗信息识别模型。【方法/过程】本文提出一种基于权威辟谣信息转化提取构建网络虚假医疗信息数据集的思路,并依次构建传统机器学习模型、CNN模型和BERT模型进行分类识别。【结果/结论】结果表明,基于辟谣信息能够实现以较低成本、不依赖专家标注构建虚假医疗信息数据集。通过对比实验发现,基于微博数据预训练的BERT模型准确率为95.91%,F1值为94.57%,相比于传统机器学习模型和CNN模型提升分别接近6%和4%,表明本文构建的基于预训练的BERT模型在网络虚假医疗信息识别任务上取得了更好的效果。【创新/局限】本文提出的方法能以较低成本建立专业领域的虚假信息数据集,所构建的BERT虚假医疗信息识别模型在小样本领域也具有实用价值,但在数据集规模、深度学习模型对比、模型性能评价指标等方面还有待拓展与延伸。
关键词:虚假信息识别;虚假医疗信息;BERT模型;深度学习;在线医疗信息;
基金项目:教育部人文社会科学基金青年项目“多源网络环境下虚假医疗健康信息智能识别研究”(20YJC870014); 国家自然科学基金青年项目“基于深度学习的多源异构网络虚假健康信息识别研究”(72004091); 南京大学大学生创新训练计划项目“数据驱动的网络虚假健康信息特征识别研究”(202110284140Z)