近日,xhjc1188新黄金城徐流畅副教授与薛星宇老师等人在地理信息领域顶级期刊《Geo-spatial Information Science》(中科院1区,IF=6)上发表题为“Beyond extraction accuracy: addressing the quality of geographical named entity through advanced recognition and correction models using a modified BERT framework”(超越提取精度:基于改进的 BERT 架构利用先进识别和校正模型以解决地理命名实体质量问题)的研究论文,成功获取了高质量的地理命名实体数据,为扩展标准地址库和后续地理命名实体研究提供价值。
在地理空间服务和应用领域,地址信息的准确性至关重要。传统的数据收集方法不仅耗时且成本高昂,因此研究人员转向志愿地理信息(VGI)来提取地理命名实体(GNE)。然而,以往的研究主要集中在提高提取精确度上,往往忽略了GNE质量的重要性。
基于此,徐流畅老师与浙大地球科学学院课题组多位学者合作,通过构建地理命名实体语义模型(GNESM)和地理命名实体识别模型(GNERM),并进行增量预训练和微调,成功地提高了识别精度至90.9%。此外,通过构建地理命名实体错误纠正模型(GNEECM),实现了96.6%的错误检测和纠正准确率,显著提高了GNE数据的质量。
该研究所提出的识别与纠错方法在多个经典测试函数和实际工程设计问题中表现出色,与多种已有的优化算法进行比较,展示了其在复杂地理命名实体处理上的卓越性能。研究团队通过多方面的实验验证了模型的有效性,并通过与社交媒体文本数据的结合,进一步拓宽了模型的应用范围。这些高质量的GNE数据不仅可以用于扩充标准地址库,还为后续的地理命名实体研究提供了有价值的参考。
xhjc1188新黄金城为该论文第一单位,徐流畅副教授为第一作者,薛星宇老师为通讯作者。该研究成果得到了xhjc1188新黄金城的支持,从场地、计算资源、网络等方面为科研活动排忧解难,使研究得以顺利进行。
论文地址:https://www.tandfonline.com/doi/full/10.1080/10095020.2024.2354229
徐流畅