专刊:交通运输数字化转型

基于TransKG-Chat的交通运输知识模型构建及应用

  • 胡海东 , 1 ,
  • 李肇嘉 , 2, * ,
  • 伍朝辉 1
展开
  • 1 交通运输部科学研究院,北京 100029
  • 2 首都师范大学,北京 100048
*李肇嘉(2001—),男,北京人,硕士研究生,研究方向为人工智能、计算机视觉。E-mail:

胡海东(1997—),男,河北保定人,硕士,研究实习员,研究方向为交通数字化。E-mail:

收稿日期: 2025-06-20

  网络出版日期: 2025-09-15

基金资助

陕西省交通运输厅2023年度交通科研项目(23-02X)

科技创新2030-“新一代人工智能”重大项目(2022ZD0115602)

Construction and Application of Transportation Knowledge Models Based on TransKG-Chat

  • HU Haidong , 1 ,
  • LI Zhaojia , 2, * ,
  • WU Zhaohui 1
Expand
  • 1 China Academy of Transportation Sciences, Beijing 100029, China
  • 2 Capital Normal University, Beijing 100048, China

Received date: 2025-06-20

  Online published: 2025-09-15

摘要

针对交通领域图谱模型构建中的结构化表达和复杂知识自动抽取能力不足,提出TransKG交通运输知识大模型及TransKG-Chat知识图谱自动构建方法。首先,基于交通运输专业语料,采用指令微调、高层有监督参数优化与多任务联合损失,提升模型对交通运输知识的理解与结构化抽取能力。然后,设计多层级五元组体系,结合自动解析与分层归一算法,实现知识高精度批量抽取和复杂语义归属层级组织。最后,结合五元组自动抽取,构建图谱驱动的智能应用体系,实现货运枢纽监控、多式联运等场景下知识可视化与辅助决策。实验结果显示:TransKG模型在交通运输领域问答集的Pass@1指标较相同参数规模的主流模型有明显提升,五元组抽取准确率达95%;自动化效率方面,TransKG-Chat方法在500字与20 000字文本下构建用时分别为人工的2.98倍和12.83倍。结果表明,该方法在完成交通知识自动抽取任务中具有领先优势,能够有效支撑行业智能化服务应用。

本文引用格式

胡海东 , 李肇嘉 , 伍朝辉 . 基于TransKG-Chat的交通运输知识模型构建及应用[J]. 交通运输研究, 2025 , 11(4) : 79 -92 . DOI: 10.16503/j.cnki.2095-9931.2025.04.007

Abstract

To address the limitations in structured representation and automated extraction of complex knowledge in transportation knowledge graph modeling, this study proposed the TransKG large model of transportation knowledge and the TransKG-Chat automatic construction method of knowledge graph. Firstly, based on domain-specific transportation corpora, instruction fine-tuning, high-level supervised parameter optimization, and multi-task joint loss were employed to enhance the model′s understanding and structured extraction abilities for transportation knowledge.Then, a multi-level quintuple system was designed, combined with automatic parsing and hierarchical normalization algorithms, to achieve high-precision batch extraction of knowledge and hierarchical organization of complex semantic attributions. Finally, by integrating automatic quintuple extraction, a knowledge graph-driven intelligent application framework was constructed, achieving knowledge visualization and auxiliary decision-making in scenarios such as freight hub monitoring and multimodal transport. Experimental results demonstrated that: the TransKG model significantly improved the Pass@1 metric on transportation domain question-answering datasets compared to mainstream models with the same parameter scale, and achieved a quintuple extraction accuracy of 95%; In terms of automation efficiency, the construction times of the TransKG-Chat method for texts of 500 words and 20,000 words are 2.98 times and 12.83 times faster than manual processing, respectively. Overall, the results verified the leading advantage and industry application value of the proposed method in automatic transportation knowledge extraction and intelligent applications.

0 引言

随着智能交通运输体系的不断发展,知识图谱作为结构化和语义化的知识管理工具,已成为支撑交通运输行业数字化转型的重要技术。现代交通运输网络涉及公路、铁路、桥梁、港口、枢纽等多类型设施,包含运输组织、运力调度、政策标准等复杂要素,产生了海量、多源、异构的数据。如何利用知识图谱对分散的行业知识进行归纳、整合和智能利用,已成为提升交通运输管理和服务能力的核心问题。自动构建高质量的交通运输知识图谱,有助于从维护记录、调度指令、事故报告等非结构化文本中高效提取和融合关键知识,实现行业知识的标准化、可视化与智能化应用,支撑交通信息化与智能决策。
针对交通运输领域知识的自动化结构化建模[1-2],国内外学者已在知识图谱生成与行业应用等方向开展了大量研究。交通运输行业高质量知识图谱自动构建的相关工作主要包括两方面:一是面向通用领域和多源文本的信息抽取与知识图谱自动构建方法;二是交通运输领域知识图谱的构建与应用。
在知识图谱自动构建方法方面[3-4],Bosselut等[5]提出了COMET模块,采用基于GPT[6]的大规模预训练模型,实现了常识知识三元组的自动生成和扩展,有效提升了知识图谱的覆盖范围和生成能力。Chen等[7]提出了AutoKG方法,通过大语言模型关键词抽取和图拉普拉斯学习,实现了无需神经网络微调的轻量级知识图谱自动构建,提升了知识抽取效率和互联性。Zhou等[8]针对司法案例提出了流水线式自动构建模型,结合BERT-CRF[9]进行实体识别和TransE关系嵌入,提升了行业文本结构化知识抽取的准确性。Wang等[10]设计了基于大模型和Prompt工程的系统需求知识图谱自动抽取框架,利用GPT-4[11]高效识别系统需求要素,实现了复杂工程文档的结构化管理。虽然上述方法有效提升了自动化知识图谱构建的能力,但目前主流方法仍存在模型结构复杂、资源消耗大、可迁移性弱等问题,且大多仅适配单一领域或固定格式,缺乏针对交通运输等专业领域知识的高效抽取与融合能力。
在交通运输领域知识图谱的构建与应用方面[12-13], Zhu等[14]提出了KST-GCN方法,通过融合知识图谱嵌入与时空图卷积网络,实现了外部因素与交通运输时空数据的深度融合,提高了运输流量预测的精度和鲁棒性。Tang等[15]提出了RouteKG框架,基于道路网络构建运输知识图谱,将路线预测任务转化为知识图谱补全问题,实现了空间关系的显式建模和高效路径预测。李劲业等 [16]设计了融合静态与动态知识图谱的时空多图卷积运输流量预测模型,通过多语义路网拓扑和知识嵌入,进一步提升了城市运输流量的预测能力。安芃等[17]将知识图谱技术引入公路工程安全管理,构建了本体层与数据层融合的领域知识图谱,实现了工程安全知识的结构化、自动提取与智能检索,有效支持了运输基础设施的智能化决策与风险管控。
尽管现有研究在知识图谱自动生成、信息抽取及其在交通运输领域的应用方面取得了一定进展,但仍存在以下关键问题亟待解决:①知识图谱构建方法模型复杂、资源消耗大,且缺乏面向交通运输领域的自动化构建方案;②现有通用大模型不具备充分的交通运输领域知识,难以实现高质量的领域知识抽取;③大多数工作主要关注已有知识图谱的预测与问答,在高效、自动化构建和扩充交通运输知识图谱方面仍显不足,人工方法统计或构建速度慢,难以适应行业发展需求。
针对当前交通运输知识图谱自动构建存在的模型复杂、资源消耗大、领域知识覆盖不足以及自动化能力有限等问题,将在前人方法的基础上,研究提出以TransKG模型为核心的交通运输知识图谱自动构建方法。本研究聚焦交通运输多源异构数据与复杂业务语义的统一建模。一是基于交通运输专业语料,采用指令微调、高层有监督参数优化与多任务联合损失,以提升模型对行业知识的理解与结构化抽取能力,实现高精度与高适应性的知识获取;二是创新设计基于TransKG模型的五元组知识表达与自动解析方法,实现多层级、归属关系丰富的实体及关系建模,用以支撑复杂场景下的可视化决策与多维推理;三是聚焦货运枢纽动态监控与多式联运业务链路等典型应用场景,系统验证所提方法在知识抽取准确率、自动化构建效率与行业智能应用支持等方面的成效,以期为交通运输知识管理和智能化服务提供创新范式与理论支撑。

1 TransKG交通运输知识大模型构建

因交通运输领域的知识高度专业化且结构复杂,通用大模型在处理专业术语、业务层级和多源异构信息时,往往面临泛化能力不足、知识捕获不充分等问题。针对上述问题,本章将开展交通领域知识重组与领域数据集构建,结合典型场景进行微调,以提升模型对行业知识的表达能力,并为后续实现高质量自动化知识抽取与推理提供基础。

1.1 数据集构建

为保证大模型在交通运输领域微调的有效性,本研究所用微调语料系统采集自交通运输部官方网站、国家和地方交通运输标准化委员会、物流与多式联运行业协会、典型货运枢纽企业、主流学术数据库及权威行业期刊。数据涵盖政策标准、技术规范、行业蓝皮书、调度日志、应急与安全事故报告、运营监控记录、实地调研访谈稿及2020—2025年公开发表的高水平SCI/EI交通运输领域论文。累计收集文本数据930万字,覆盖原始文档3 456份,其中政策标准及规范类文档占比约35%,业务日志与事故案例占比约41%,行业蓝皮书及调研材料占比约14%,高水平学术论文占比约10%。
为确保交通运输领域微调语料的高质量与专业性,文本处理流程依次为:①对原始数据进行停用词过滤、特殊符号剔除及多余空白整理;②利用n-gram语言模型库高效筛除非简体中文文本,仅保留与行业相关的内容;③基于正则表达式与OpenCC库,对字符格式、全角半角及简繁体进行统一标准化处理;④借助BERT/BiLSTM-CRF与LAC分词联合NER模型,自动识别并脱敏人名、地名、机构等敏感信息;⑤完成基础清洗后,通过哈希指纹与MinHash算法自动去重,降低数据冗余,针对长文本内容,采用pkuseg、THULAC等分词工具及规则断句算法实现细粒度切分,提升语料结构化程度;⑥结合交通运输高频术语表及大模型语义判别机制,自动筛除行业无关语料,最终汇总为结构规范、语义高度相关的高质量候选数据集。
为最大化发挥大模型的泛化与推理能力,采用“角色设定+场景问答”多轮对话格式作为微调数据集的主要组织形式。如图1所示,每组训练样本包含system、input、output三大字段,充分模拟真实业务场景下的智能问答和知识推理过程。
图1 微调数据集格式设置样例
构建的交通运输领域微调数据集如表1所示。该数据集覆盖了物流枢纽管理、多式联运调度、应急运输管理以及运输安全管理等核心业务场景。每组数据均以“system-input-output”三元结构组织,有效覆盖了交通运输领域的多样化业务需求与复杂知识结构。system字段,通过角色设定精准限定模型的服务场景,使大模型聚焦专业领域知识的精准理解与输出;input字段,模拟行业用户在实际管理与调度中的真实提问,有助于提升模型对复杂任务指令的解析与泛化能力;output字段,给出规范、详尽的专业解答,涵盖具体操作流程、策略建议和安全规范等关键信息。这种对话式微调样本设计,能有效提升模型对行业术语、流程规范及应急策略的学习效率,同时也为后续知识图谱五元组自动抽取和智能问答系统提供了标准化的知识表达基础。
表1 交通运输领域微调数据集样例
字段 对话1 对话2 对话3 对话4
system 你是一名物流枢纽管理领域的智能助手,专注于货运调度与运营问题解答 你是一名多式联运调度领域的专家助手,为用户解答铁路、公路、水运等联运相关业务问题 你是交通运输领域应急管理专家,擅长解决运输事故和应急调度问题 你是一名交通运输安全管理专家,专注于提升道路运输安全与风险防控
input 货运枢纽日常管理中,如何实现多类型货物的高效调度? 多式联运过程中,如何协调铁路与公路环节的衔接,提高整体运输效率? 面对突发暴雪天气,如何应急调整长途货运计划以保障货物及时送达? 在运输高危化学品时,枢纽应采取哪些安全措施以防止事故发生?
output 枢纽通常采用分区管理和智能调度系统,将不同类型货物划分至指定作业区,通过实时监控与排班,提升流转效率 联运枢纽设立中转换装区,实现集装箱在铁路与公路间无缝转运,并通过统一调度和信息共享优化衔接 遇到暴雪等极端天气,调度系统会动态调整线路与班次,优先安排替代路径和备用运力,确保货物安全及时送达 运输高危化学品时,需专设安全通道和隔离区,实施全过程视频监控,严格执行双人交接和实时风险预警,确保运输安全

1.2 TransKG大模型构建

TransKG模型微调网络结构如图2所示。利用Transformer的自注意力机制与深层参数共享,高效捕捉复杂序列中实体与关系的全局依赖。通过微调流程,使大模型不仅具备通用语言理解能力,并且能够精准适配交通运输行业的专业知识体系。
图2 TransKG模型微调网络结构
数据预处理阶段,针对交通运输领域业务特点,构建涵盖货运枢纽管理、多式联运调度、应急处置与安全管理等场景的高质量领域语料,并按照“system-input-output”多轮对话格式进行结构化预处理。进一步通过Tokenizer编码,将业务指令、场景描述与领域知识等文本内容进行离散化处理,转换为可供模型输入的数字序列,一并输入Transformer主干网络。
模型微调阶段,以DeepSeek-R1-14B等大模型为基座,冻结部分通用层,仅对高层参数和输出层进行有监督微调,能够有效减少计算开销并防止过拟合,使模型在新任务中实现 高效学习。训练过程中,模型在自注意力计算中自动聚焦交通领域关键词并通过多层残差与前馈结构逐步融合行业专属语义特征。损失函数采用标准交叉熵损失,目标是最小化模型输出与人工交通领域答案之间的token级差异。未问答任务的损失函数表示如下:
$L_{\mathrm{QA}}=-\frac{1}{N} \sum_{i=1}^{N} \sum_{t=1}^{T_{i}} \ln P\left(y_{i, t} \mid x_{i}, y_{i,<t} ; \theta\right)$
式(1)中: L Q A为问答任务的损失函数;N为训练样本的总数; T i为第i条样本输出序列的长度; x i为第i条样本的输入内容; y i ,   t为第i条样本在t时刻的目标输出token;为该样本在t时刻之前已生成的token序列;为在给定输入 x i和历史输出的条件下,由当前模型参数 θ所确定的概率分布下,预测第i条样本在第t时刻输出 y i ,   t的概率。
在此基础上,TransKG进一步引入辅助任务损失,如实体识别 L e n t i t y和属性抽取 L a t t r i b u t e,提升模型对复杂交通场景结构化信息的捕获能力,实现多粒度知识的联合优化。联合损失函数表示如下:
$L_{\text {total }}=L_{\mathrm{QA}}+\lambda_{1} L_{\text {entity }}+\lambda_{2} L_{\text {attribute }}$
式(2)中: L t o t a l为总损失函数; L Q A为主任务的序列生成损失; L e n t i t y为实体识别任务的损失; L a t t r i b u t e为属性抽取任务的损失; λ 1 λ 2为超参数,用于平衡不同任务损失项对整体优化目标的贡献权重。
通过上述微调机制,Transformer能在原有通用语义基础上,快速吸收交通运输领域的专业表达和知识组织方式。TransKG利用Transformer灵活的结构,通过有监督微调与多任务损失设计,实现了交通运输知识的精准适配与高效迁移,为行业知识图谱的自动构建和复杂业务场景下的智能问答提供了技术支撑。

2 TransKG-Chat交通运输知识图谱构建方法

本章基于TransKG大模型,进一步提出了TransKG-Chat交通运输知识图谱构建方法。首先,系统阐述了五元组结构的理论基础与表达优势,并详细介绍了基于大模型驱动的知识自动抽取、节点唯一化及分层融合方法。然后,通过对核心流程与关键算法的优化,进一步强化了知识图谱在多源异构场景下的表达力与适应性。最后,结合交通运输典型应用场景,展示了五元组图谱在智能管理、知识问答和风险溯源等方面的实际应用价值。

2.1 知识图谱五元组构建

交通运输业务知识呈现多级嵌套、分层归属的结构特征。传统的三元组[h,r,t]在表征实体间基本关系时,难以直接刻画“归属-从属”这种上级语义。例如,在“智慧交通-智慧路网”这一关系中,若不引入隶属信息,无法精确表示“智慧路网”作为子层级存在于“智慧交通”之下。因此,本方法引入“起点隶属ph”和“终点隶属pt”两个显式标签,使每个知识单元不仅指向本体,还同步明确其在领域知识树中的归属层次。
表2所示,采用知识图谱五元组结构,创新性地扩展了传统三元组表达,旨在充分捕捉交通领域知识中的层级、归属等复杂语义关联。其结构定义为 [ h ,   r ,   t ,   p h ,   p t ],即起点实体 h、关系 r、终点实体 t、起点隶属 p h与终点隶属 p t
表2 五元组结构要素及其功能说明
要素名称 符号 语义说明 功能作用
起点实体 h 关系的起始节点 标识知识单元的出发点,为关系描述提供具体对象
关系 r 起点实体与终点实体间的语义关系 刻画实体间的关联类型,实现领域内多样知识连接
终点实体 t 关系的指向节点 指明知识单元的落点,辅助知识图谱的逻辑结构扩展
起点隶属 ph 起点实体的上级/归属层级 明确起点实体的层次、归属,实现复杂知识的分层与去歧义化处理
终点隶属 ph 终点实体的上级/归属层级 明确终点实体的层次、归属,支撑图谱分层、可视化和复杂语义组织

2.2 知识图谱五元组自动抽取方法

知识图谱五元组自动抽取方法流程如图3所示,涵盖原始交通文本资料的采集、大模型驱动的实体及关系抽取、五元组生成、信息融合与层级归纳等环节,实现从非结构化文本到结构化知识图谱的高效自动化转化。
图3 TransKG-Chat交通知识图谱自动创建流程
在本方法中,首先系统性地采集多源异构的交通文本资料。相关数据包括但不限于事故报告、运力调度文档以及设施运行记录等。这些文本共同构成了交通领域知识图谱构建的基础语料,充分覆盖交通运输业务的各类场景,为后续的实体与关系抽取奠定了数据基础。
文本采集完成后,依托深度预训练的交通大模型,对每条交通文本自动开展实体、属性、关系和隶属等核心要素的抽取。对于任意一条交通文本 D i,通过大模型抽取函数 E x t r a c t ( D i ),可以获得结构化的五元组集合 T i
T i = E x t r a c t ( D i ) = ( h j ,   r j ,   t j ,   p h j ,   p t j ) | j = 1 ,   2 , ,   n
式(3)中: h j t j分别为五元组中的起点和终点实体; r j为两实体间的语义关系; p h j p t j分别为起点和终点实体的上级隶属;n为该文本抽取的五元组数量。
通过设计的多轮指令提示机制,模型不仅能够精准识别复杂业务语境下的交通术语,还能高效解析专业领域知识,确保在多样化文本下具备良好的泛化能力和专业性。
为确保知识图谱节点的全局唯一性,系统在五元组封装时,对每个实体及其隶属自动生成唯一标识。具体来说,对于起点和终点节点,其唯一标识由名称和隶属共同确定,如式(4)、式(5)所示:
i d h = U n i q u e I d ( h ,   p h )
i d t = U n i q u e I d ( t ,   p t )
式(4)~式(5)中: i d h i d t分别为五元组节点的起点标识与终点标识; U n i q u e I d表示将实体名称 t h与其隶属 p t p h进行拼接,并通过递增编号实现节点的全局唯一标识,该策略可有效防止因隶属不同而名称相同的节点混淆,为下游图结构操作提供基础。
在交通领域的复杂业务知识建模中,“起点隶属”与“终点隶属”字段的设计,其语义基础源于实际业务对象在多层次交通系统中的归属与依赖关系。具体而言,每个实体节点的“隶属”标签不仅反映了其在原始数据中的层级结构,更体现行业规范和业务文档中“归属于”“隶属于”等关系的显式标注。构造规则方面,系统首先依据行业本体和文本上下文,利用规则抽取与大模型理解能力,对实体的归属层级进行自动归纳,将业务语句中的“上级-下级”关系标准化为结构化标签。对于每条五元组边,节点的“起点隶属”“终点隶属”由其在文本或表格中的上级主题、父级对象或业务板块自动判定。抽取机制上,系统集成了层次化实体识别、依存分析和业务词典驱动的归属匹配算法,确保归属标注的准确性和业务一致性。
上述机制不仅保障了知识图谱节点在全局范围内的唯一性,还使得五元组能够与交通业务层级结构进行一一对应,支撑业务流的全链路建模与多粒度语义查询。最终,五元组的“隶属”信息作为显式标签,深度融合于知识图谱的数据结构与可视化平台,实现了交通领域复杂层级关系的结构化表达。
每条五元组在图谱中的有向边也需具备唯一标识,具体计算方式如下:
i d e = U n i q u e E d g e I d ( i d h ,   i d t ,   r ,   p h ,   p t )
式(6)中: i d e为组成五元组的每个节点;UniqueEdgeId为基于起点标识 i d h、终点标识 i d t、关系 r及隶属信息 p h p t的复合主键生成函数,用于确保边的唯一性与可追溯性。
批量五元组解析完成后,系统会对当前图谱状态进行动态增量更新。每当有新的五元组集合 Δ T加入时,更新过程可形式化为:
G ' = U p d a t e G r a p h ( G ,   Δ T )
式(7)中: G为原始知识图谱; G '为更新后的知识图谱;UpdateGraph( )为利用新抽取的五元组集合 Δ T,对原有节点集进行去重、补全及增量融合操作,完成知识图谱的动态更新。
随着多文本和多批次五元组不断注入,知识图谱需要进行全局信息融合与归一化。系统采用归一化合并算法,将冗余节点、同义实体及多余边统一归并,表示为:
V ~ ,   E ~ = M e r g e ( V ,   E )
式(8)中: V为节点集合; E为边集合;Merge函数是基于节点属性、隶属关系和语义相似度等综合策略,对节点集合 V和边集合 E进行融合归一; V ~ E ~分别为最终得到的归一化后的节点集和边集。
上述机制保证了图谱的全局一致性和层次结构清晰。
最终,所有归纳融合后的五元组以结构化知识图谱的方式进行表达。每一个五元组被可视化为“节点-关系-节点”的有向边,并标注其对应的上下级隶属信息,形成立体化、层次化的交通领域知识图谱。该图谱能支撑知识的高效检索、语义追溯与动态扩展,充分满足智能交通管理与决策支持的多样化需求。

2.3 交通运输知识图谱应用

本文提出的知识图谱五元组结构,能够在多种交通信息化与智能管理场景中展现独特的表达力和应用价值。凭借对实体归属与层级关系的精准建模,五元组不仅满足了交通领域多层级、多类型信息的高效表达,更为后续知识推理、智能问答、异常检测等任务奠定了数据基础。表3展示了五元组图谱在交通典型业务场景中的应用示例,并阐述了五元组设计在满足实际需求方面的优势。
表3 知识图谱五元组在交通领域的典型应用场景
应用场景 典型业务问题 五元组示例 五元组结构优势说明
设施全寿命周期管理 某桥梁属于哪个线路?其维护周期如何? ["桥梁A", "属于", "线路X", "桥梁组",
"线路组"]
实体归属与多层级管理清晰建模,
便于全生命周期信息追踪
智能调度与联动 调度任务涉及哪些单位和设备? ["调度任务T", "涉及", "调度设备E",
"调度中心", "设备库"]
关系可细粒度表达,
隶属信息辅助资源组织与联动分析
安全隐患溯源与响应 某次事故源头及涉及
层级如何判定?
["事故X", "关联", "隐患Y", "事故库",
"隐患数据库"]
支持事故与隐患多层溯源,
助力风险演化链条结构化建模
交通运行知识问答 某路段拥堵原因与
影响因素有哪些?
["路段S", "原因", "信号失灵", "路网层",
"设备层"]
可多层次表达原因/影响链,
增强知识问答推理能力
行业标准自动化归档 业务流程涉及哪些标准、文件归属关系? ["流程F", "依据", "标准B", "流程库",
"标准体系"]
结构化梳理流程与标准间的
复杂依赖和归属层级
知识图谱五元组结构在交通基础设施管理、智能调度、应急响应、知识问答及标准归档等典型应用场景中,均能实现多层级、强归属、细粒度的复杂知识关系表达。这不仅为智能化管理和决策分析提供了高质量的底层知识支撑,也为后续开展跨系统知识融合、自动化推理与业务流程优化提供了结构化基础。

3 TransKG模型与TransKG-Chat方法的性能评估

本章围绕前文提出的TransKG交通知识大模型与TransKG-Chat自动知识图谱构建方法,系统开展性能对比与实例验证。通过交通运输领域权威问答集,对TransKG模型与多种主流大模型的知识理解与问答能力进行了定量评测;评估了TransKG-Chat方法在不同文本规模下的知识图谱自动构建效率,并与人工方法进行对比;通过消融实验和可视化系统展示,进一步验证了所提方法在交通运输领域复杂知识抽取、结构化表达及应用支持等方面的有效性和领先优势。

3.1 TransKG模型与主流模型在交通运输领域问答性能分析

为科学评估微调后TransKG模型的知识理解与推理性能,面向实际应用需求构建了专用领域评测数据集。数据集主要采自2020—2025年交通运输领域的权威出版物,包括交通运输部政策标准、行业蓝皮书、运输安全报告、典型运营案例、高被引SCI/EI学术论文等。数据内容覆盖公路、铁路、水运、航空及多式联运等主要业务板块,涵盖行业标准、关键技术、业务流程、风险管理与调度决策等多个知识层面。所有评测问题均依据交通领域高频实际问题、行业应用场景及理论难点进行遴选,确保样本的权威性、代表性与挑战性。
为保证评测的全面性和统计结果的稳定性,构建了包含1 000组高质量交通运输问答对的评测集。问题类型涵盖事实性知识、推理类分析和复杂场景决策等多种难度层级,每组问答均配备唯一标准答案,便于进行自动化准确率评估。
模型性能评估以Pass@1作为主要指标。具体定义为:对每道评测题,将模型输出的首个答案与标准参考答案进行比对,若完全一致则视为命中。设N为总评测问题数,C为模型首答正确命中的问题数,将Pass@1定义如下:
P a s s @ 1 = C N
在实验中,对每个模型均在上述1 000组交通运输领域问答上独立评测10轮,并报告各项指标的均值,准确率对比见表4图4
表4 各模型交通运输领域问答集准确率Pass@1对比
模型名称 参数量 Pass@1 (%)
TransKG 14B 89.6
DeepSeek-R1-14B[18] 14B 82.5
Baichuan2-13B[19] 13B 80.4
Qwen1.5-14B[20] 14B 76.9
Llama-2-13B[21] 13B 75.8
ChatGLM3-13B[22] 13B 71.8
图4 各模型交通运输领域问答集准确率Pass@1对比
表4图4可以看出,针对交通运输领域进行微调后的TransKG模型,在Pass@1指标上显著优于未经过微调的主流同量级大模型。在相同参数规模下,TransKG模型准确率Pass@1达到89.6%,相比DeepSeek-R1-14B、Baichuan2-13B、Qwen1.5-14B、Llama-2-13B和ChatGLM3-13B均有明显提升[18-22]。结果表明,针对交通运输领域的高质量知识微调显著增强了大模型对专业交通知识的理解与问答能力,有效提升了模型在该领域的应用表现,验证了领域专业知识注入对于提升模型交通运输知识掌握能力的重要作用。

3.2 TranKG-Chat知识图谱构建效率对比实验及时效性分析

为进一步验证TransKG-Chat自动化知识图谱构建方法在交通运输领域实际应用中的效率优势,设计了分段文本规模对比实验。5位有交通领域背景的志愿者分别使用Obsidian手动标注程序,对500、2 000、5 000、10 000与20 000字的交通运输文章进行人工知识图谱构建,并计时全过程。与此同时,使用TransKG-Chat对相同语料进行自动抽取与图谱生成。人工方法与TransKG-Chat在不同文本长度下的知识图谱构建平均用时见表5图5
表5 人工方法与TransKG-Chat在不同文本长度下的知识图谱构建平均用时对比
文本长度
/字
人工绘制平均用时/min TransKG-Chat自动绘制用时/min 时间比
(人工/自动)
500 12.5 4.2 2.98
2000 54.0 9.1 5.93
5000 142.8 17.4 8.21
10 000 295.6 28.6 10.34
20 000 613.4 47.8 12.83
图5 人工方法与TransKG-Chat在不同文本长度下的知识图谱构建平均用时变化趋势
表5图5所示,TransKG-Chat在不同文本长度下的知识图谱构建时间均显著缩短,不仅在小规模文本上实现了构建时间缩短至人工绘制平均用时的1/3以下,而且在长文本与超长文本任务中效率优势进一步扩大,有效提升了实际知识图谱生产的可扩展性和工程价值。

3.3 消融实验与知识图谱准确率评估

为验证五元组结构和领域微调策略在多层级交通运输知识抽取中的有效性,开展了系统的消融实验,对比了三元组与五元组结构、微调与未微调模型在不同知识层级下的表现。评测指标采用平均精度均值(mean Average Precision, mAP),其计算公式如下:
m A P = 1 N i = 1 N A P i
式(10)中:N为测试样本总数; A P i为第 i个测试样本的平均准确率,其计算方式为该样本所有相关知识单元中模型抽取结果的平均精度。
消融实验结果如表6所示。
表6 不同方法与结构在各层级知识图谱上的mAP(%)
图谱层级 三元组+
未微调
三元组+
微调
五元组+
未微调
五元组+微调(TransKG模型)
一级 84.1 93.6 92.8 98.0
二级 72.5 81.4 87.3 97.2
三级 35.0 45.8 85.1 95.8
四级 15.3 22.5 80.6 95.1
表6可见,随着知识图谱层级的增加,传统三元组结构的准确率呈快速下降趋势,尤其在三级及以上时难以有效捕捉复杂的多级隶属与语义关联。而基于五元组结构的模型显著缓解了这一问题,能够在更高层级下持续保持较高的知识抽取准确率。进一步地,经过交通运输领域微调的TransKG模型与五元组TransKG-Chat方法在所有层级均取得了95%以上的准确率,显著优于未微调的模型。特别是在三级和四级复杂知识图谱场景下,微调模型相较于未微调版本展现出更加稳健的性能提升,验证了专业领域知识注入对于复杂交通语境下实体及关系精准抽取的关键作用。整体而言,领域微调与五元组结构设计的结合,有效提升了模型对交通运输行业多层级知识的结构化表达与高质量自动抽取能力。

3.4 TransKG-Chat自动构建知识图谱可视化

为了直观展示TransKG-Chat方法在不同文本规模下的知识图谱自动构建效果,图6对比了输入100字、500字和10 000字交通运输文本时自动生成的知识图谱可视化结果。
图6 不同规模交通文本下自动生成的知识图谱可视化结果
图6可以看出,知识图谱的规模与结构复杂度随文本长度的递增而显著提升。具体而言,100字文本规模下,知识图谱结构简明,节点数量有限,主要体现基础语义关系,能直观反映核心主题与一级要素;500字文本规模下,知识图谱在节点数量、分支广度及层次深度方面均有明显扩展,已具备典型的多级知识层次与丰富的实体关系;10 000字文本规模下,系统可稳定输出超大规模、多层嵌套、跨主题的知识网络,实现了交通领域复杂语义与实体流转关系的全景建模。
为实现交通运输知识图谱的动态构建与智能交互,TransKG-Chat方法配套开发了基于Web的可视化系统,专门面向大规模五元组知识结构的高效呈现与交互操作。该系统整体采用React框架,集成react-graph-vis组件实现节点-关系图谱的动态图形渲染,能实时反映大模型抽取结果,如图7所示。
图7 基于TransKG-Chat方法的交通运输知识图谱动态构建可视化系统
该系统的核心功能包括:自动绘制知识图谱、节点和关系的增删改查、节点分层染色、结构化五元组的批量导入导出以及图谱版本的历史回溯与恢复。
技术路径上,系统以五元组JSON结构为输入,通过唯一标识节点和边,实现节点与关系的结构化、可视化;可动态加载、生成、保存和编辑大规模图谱,保证图谱内容与交通业务层级严密映射。用户可通过可视化操作面板进行节点与边的快速构建、编辑和删除,支持交互式的层次化建模和业务依赖追溯。同时,提供节点/关系自定义染色、图谱导出等功能,满足复杂场景下多视角知识组织与复用需求。
在智能应用场景中,该可视化系统不仅可直观展现知识抽取与归一化效果,更为交通运输领域的知识管理、决策支持和场景推理提供了数据基础。业务人员可通过交互操作灵活调整图谱结构,辅助发现关键实体关系,实现跨主题、跨层级的知识流转追踪。由此,TransKG-Chat方法推动了知识图谱驱动的交通智能应用体系建设,为智能问答、数据融合、事件追踪等多类业务提供了坚实的底层支撑。

4 TransKG-Chat知识图谱构建方法的典型应用

本章基于前文提出的TransKG-Chat知识图谱构建方法,选取“货运枢纽动态可视化与智能监控”和“多式联运协同洞察”两个典型场景开展实际应用,以验证TransKG-Chat能否满足现代交通组织、调度优化、风险预警等多元业务的智能化需求,从而确认TransKG-Chat在复杂业务场景下的知识支撑和智能应用能力。

4.1 货运枢纽动态可视化与智能监控

在货运枢纽复杂运营环境下, TransKG-Chat知识图谱构建方法能够面向多源交通文本,自动抽取车辆、货物、班次、作业人员、仓库、设备、运输路线及异常事件等多元业务实体及其多维语义关系。基于五元组结构 [ h ,   r ,   t ,   p h ,   p t ]对知识要素进行规范化归纳和层级融合,自动生成“节点-关系-节点”的有向知识图谱,实现了业务流转、异常链路与时序事件的全息建模和可视化展示。该方法能够有效支撑实体全链路追溯和复杂关系推理,为智慧枢纽运营管理提供知识基础。
图8展示了多层级业务流转的知识全景。由图8可以看出,典型的货运枢纽运营链路通过五元组可层层映射,涵盖作业人员、车辆、货物、仓库、设备、班次与运输路线等主要实体。每一关系链均为自动抽取与归一化的结果,不仅实现了复杂业务流程的透明化建模,也为业务联动、流程再造和异常节点追踪奠定了知识基础。通过可视化界面,管理人员可一键展开实体上下游全链路,实时掌握业务流、设备状态及潜在瓶颈节点,为运营调度、风险防控与异常响应提供决策支撑。
图8 多层级业务流转的知识全景
图9所示为异常事件驱动的知识链路推理。系统可自动识别运营过程中的“异常状态”节点,并向外发布关联故障设备、相关车辆、相关货物、异常仓库、异常班次、责任人员及各类时间/空间信息。每一条有向边均由五元组生成,明确指示实体类型、业务归属及因果逻辑。管理人员可据此追溯事故责任、定位异常影响范围,并结合图谱自动推演其波及班次、受影响车辆与下游货主,实现异常事件管理的精准溯因与智能预警。
图9 异常事件驱动的知识链路推理
在货运枢纽动态管理方面,基于TransKG-Chat知识图谱自动构建方法,通过五元组驱动的实体抽取与层级融合,实现了对货运枢纽复杂业务流、多维实体关系及动态异常事件的全局结构化表达,并突破了传统信息展示方式的局限,有效提升了运营管理的数据可视化能力和知识解析深度,支持多场景下的智能运营、自动决策和异常响应等应用。

4.2 多式联运运行态势的动态图谱洞察

针对现代多式联运体系节点多元、环节复杂、状态高度动态变化等现实需求,依托五元组结构 [ h ,   r ,   t ,   p h ,   p t ],实现了交通领域多源文本的结构化语义解析和知识自动抽取。该方法能够动态捕获“运输任务-货主-货物-运输方式-关键节点-作业环节-事件状态”等复杂业务实体及其多维隶属与流转关系,系统性建构全链路的运输网络知识图谱。
图10所示,针对典型多式联运货流任务,所生成的知识图谱全面涵盖任务、货主、货物、运输方式、关键枢纽、作业环节等全链路要素,每一节点与有向关系均基于五元组自动抽取与归纳,精准刻画货流在多模式、跨区域场景下的动态迁移路径,为运行态势洞察与多维决策分析提供坚实的知识基础。
图10 多式联运运输任务的链路级动态图谱
具体而言,每一运输任务T可被自动抽取并与货主、承载货物、选择运输方式及经过的关键枢纽等实体建立动态关联。当任一环节发生状态变更时,系统可实时捕获并自动更新对应的图谱结构,保证运营链路的时空一致性与全流程留痕。结合五元组中的“隶属”属性,管理者能够一键追溯任一货物在多环节、多节点、多运输方式下的全生命周期,实现复杂场景下的信息穿透与路径回溯。
更进一步,图谱推理层可对异常节点、环节瓶颈、事件传导链等进行自动识别和高亮展示。如图11所示,系统能够将跨运输方式的节点、作业单位、调度事件、异常状态与影响公司等实体高阶关联,为联运指挥中心、运力调度部门提供动态沙盘支持与风险决策依据。此类动态图谱不仅支撑全网货流分布、节点瓶颈及事件联动的实时观察,还可结合历史轨迹对运输效率、资源负荷、协同异常等多维指标进行统计建模与可视化分析。
图11 多式联运网络下异常事件与企业协同图谱
在多式联运态势分析方面,基于TransKG-Chat知识图谱自动构建方法,切实提升了多式联运运行态势的全局可见性、动态响应与决策智能,为复杂交通运输系统的高效管控与安全运营提供了有力的技术支撑。
本章所列举的应用示例,不仅覆盖了货运枢纽动态可视化、智能监控与多式联运运行链路的动态洞察等典型场景,还通过真实业务数据和自动化知识抽取流程,展示了TransKG-Chat知识图谱自动构建方法在交通行业复杂业务中的落地能力。应用示例系统地体现了五元组结构在全链路追踪、异常推理与多维决策中的表达优势,并通过动态图谱界面直观支撑业务部门的高效运营与智能化管理。未来,该方法还可进一步扩展应用至智慧公路、综合交通枢纽协同等更多领域,助力交通运输行业的数字化转型与智能生态构建。

5 结束语

面向交通运输领域复杂多源的行业知识自动化管理需求,构建了TransKG交通运输知识模型并提出了融合五元组结构的TransKG-Chat知识图谱大模型构建方法。通过对非结构化行业文本的高效要素抽取与分层归纳,显著提升了领域知识的结构化表达能力,并实现了知识图谱在动态监控、全链路追踪等场景下的应用价值。对比实验与消融实验结果显示,所提出的方法在知识覆盖广度、抽取准确率以及构建效率等方面均优于现有主流模型,有效支撑了交通运输行业智能化应用的落地。需要指出的是,本文的研究在特定领域知识融合和图谱时序推理等方面仍有提升空间,后续研究中将进一步拓展图谱表达能力,推动其在更复杂交通场景中的深度应用。
[1]
HOU Y, SHAO Y, HAN Z, et al. Construction and application of traffic accident knowledge graph based on LLM[R]. Warrendale, PA: SAE Technical Paper, 2025.

[2]
TAN J, QIU Q, GUO W, et al. Research on the construction of a knowledge graph and knowledge reasoning model in the field of urban traffic[J]. Sustainability, 2021, 13(6): 3191. DOI: 10.3390/su13063191.

[3]
ZHONG L, WU J, LI Q, et al. A comprehensive survey on automatic knowledge graph construction[J]. ACM Computing Surveys, 2023, 56(4): 1-62.

[4]
MASOUD M, PEREIRA B, MCCRAE J, et al. Automatic construction of knowledge graphs from text and structured data: a preliminary literature review[C]// 3rd Conference on Language, Data and Knowledge (LDK 2021). Zaragoza, Spain:Schloss Dagstuhl-Leibniz Center for Informatics, 2021: 19: 1-19: 9.

[5]
BOSSELUT A, RASHKIN H, SAP M, et al. COMET:Commonsense transformers for automatic knowledge graph construction[C]// Proceedings of 57th annual meeting of the Association for Computational Linguistics (ACL 2019). Florence: ACL, 2019: 4762-4779.

[6]
RADFORD A, NARASIMHAN K, SALIMANS T, et al. Improving language understanding by generative pre-training[R]. San Francisco: OpenAI, 2018.

[7]
CHEN B, BERTOZZI A. AutoKG:Efficient automated knowledge graph generation for language models[C]// 2023 IEEE International Conference on Big Data (BigData). Sorrento, Italy: IEEE, 2023: 3117-3126.

[8]
ZHOU J, CHEN X, ZHANG H, et al. Automatic knowledge graph construction for judicial cases[J]. arXiv Preprint, 2024. arXiv: 2404.09416.

[9]
HU S, ZHANG H, HU X, et al. Chinese named entity recognition based on BERT-CRF model[C]// 2022 IEEE/ACIS 22nd international conference on computer and information science (ICIS). Zhuhai, China: IEEE, 2022: 105-108.

[10]
WANG L, WANG M C, ZHANG Y R, et al. Automated identification and representation of system requirements based on large language models and knowledge graphs[J]. Applied Sciences, 2025, 15(7): 3502. DOI:10.3390/app15073502.

[11]
ACHIAM J, ADLER S, AGARWAL S, et al. GPT-4 technical report[J]. arXiv Preprint. arXiv: 2303.08774, 2023. DOI: 10.48550/arXiv.2303.08774.

[12]
TAN J, QIU Q, GUO W, et al. Research on the construction of a knowledge graph and knowledge reasoning model in the field of urban traffic[J]. Sustainability, 2021, 13(6): 3191. DOI: 10.3390/su13063191.

[13]
陈娇娜, 张静, 靳引利, 等. 基于 RoBERTa- BiGRU-CRF 的交通事故处置流程文本信息抽取[J]. 交通运输研究, 2024, 10(3):20-28.

[14]
ZHU J, HAN X, DENG H, et al. KST-GCN: A knowledge-driven spatial-temporal graph convolutional network for traffic forecasting[J]. IEEE Transactions on Intelligent Transportation Systems, 2022, 23(9): 15055-15065.

[15]
TANG Y, ZHAO Z, DENG W, et al. RouteKG: A knowledge graph-based framework for route prediction on road networks[J]. arXiv Preprint. arXiv: 2310.03617, 2023. DOI: 10.48550/arXiv.2310.03617.

[16]
李劲业, 李永强. 融合知识图谱的时空多图卷积交通流量预测[J]. 浙江大学学报 (工学版), 2024, 58(7):1366-1376.

[17]
安芃, 胡振中, 林佳瑞, 等. 知识图谱对工程安全管理的智能支持方法研究[C]// 第八届全国BIM学术会议论文集. 深圳: 中国图学学会,2022:7-12.

[18]
GUO D, YANG D, ZHANG H, et al. Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning[J]. arXiv Preprint. arXiv: 2501.12948, 2025. DOI: 10.48550/arXiv.2501.12948.

[19]
YANG A, XIAO B, WANG B, et al. Baichuan 2: Open large-scale language models[J]. arXiv Preprint. arXiv: 2309.10305, 2023. DOI: 10.48550/arXiv.2309.10305.

[20]
BAI J, BAI S, CHU Y, et al. Qwen technical report[J]. arXiv Preprint. arXiv: 2309.16609, 2023. DOI: 10.48550/arXiv.2309.16609.

[21]
TOUVRON H, MARTIN L, STONE K, et al. Llama 2: Open foundation and fine-tuned chat mo-dels[J]. arXiv Preprint. arXiv:2307.09288, 2023. DOI: 10.48550/arXiv.2307.09288.

[22]
DU Z, QIAN Y, LIU X, et al. Glm: General language model pretraining with autoregressive blank infilling[J]. arXiv Preprint. arXiv: 2103. 10360, 2021. DOI: 10.48550/arXiv.2103.10360.

Options
文章导航

/