首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到11条相似文献,搜索用时 234 毫秒
1.
基于BERT的多特征融合农业命名实体识别   总被引:2,自引:2,他引:0  
命名实体识别是农业文本信息抽取的重要环节,针对实体识别过程中局部上下文特征缺失、字向量表征单一、罕见实体识别率低等问题,提出一种融合BERT(Bidirectional Encoder Representations from Transformers,转换器的双向编码器表征量)字级特征与外部词典特征的命名实体识别方法...  相似文献   

2.
为解决构建知识图谱过程中由于上下文环境复杂、现有模型字向量语义表征相对单一导致领域专业实体识别率低的问题,该研究提出了来自转换器的双向编码器表征量(bi-directional encoder representation from transformer, BERT)和残差结构(residual structure, RS)融合的命名实体识别模型(bert based named entity recognition with residual structure,BBNER-RS)。通过BERT模型将文本映射为字符向量,利用双向长短时记忆网络(bi-directional long-short term memory, BiLSTM)提取局部字符向量特征,并采用RS保留BERT提供的全局字符向量特征,以提高字向量的语义丰富度,最后通过条件随机场(conditional random field, CRF)模型对特征向量解码,获取全局最优序列标注。与其他命名实体识别模型相比,提出的BBNER-MRS模型在葡萄数据集上表现较好,在葡萄人民日报、玻森、简历和微博数据集上F1值分别达到89...  相似文献   

3.
知识图谱本质上是基于图的语义网络,表示实体与实体之间的关系,在知识问答、语义检索等领域起着至关重要的作用。针对目前水产病害领域存在实体关系交叉关联、多源异构数据聚合能力差、利用率低、知识共享困难等问题,该研究基于自然语言处理和文本挖掘提出了一个基于神经网络深度学习模型的水产病害专业领域知识图谱构建方法并进行试验验证。首先,构建水产病害专业领域本体,并预定义实体类型、属性和关系的集合,确定知识抽取边界;其次,在本体基础上,分别利用规则方法和深度学习方法对半结构化和非结构化知识进行抽取。对于非结构化知识,提出“水产病害+关系+BMES”文本标注体系,将关系抽取融合于命名实体识别任务中直接对三元组建模,将实体关系抽取转化为序列标注问题,不仅提高标注效率,还实现了实体和关系的联合抽取。同时通过标签匹配和映射对三元组建模获得RDF数据,解决了重叠关系抽取的难题。利用BERT-BiLSTM+CRF端到端模型进行试验,试验结果证明该三元组抽取方法具有较高的召回率(89.64%),准确率(94.04%)和F1值(91.34%),优于CNN+BiLSTM+CRF和BiLSTM+CRF等模型,抽取效果有了显著提升,并将抽取到的知识存储到 Neo4j 图数据库中,实现知识可视化管理及知识推理分析。该研究构建的水产病害知识图谱精度高、粒度细,能够帮助机器理解数据、解释现象、知识推理,从而发掘深层关系、实现智慧搜索与智能交互。  相似文献   

4.
基于深度学习的作物病虫害可视化知识图谱构建   总被引:1,自引:9,他引:1  
针对作物病虫害领域存在实体关系交叉关联、多源异构数据聚合能力差、知识共享困难等问题,利用知识图谱以结构化的形式描述实体间复杂关系的优势,该研究提出了一种基于深度学习的作物病虫害知识图谱构建方法。该方法在领域本体的基础上,以一种与领域语料相适应的新标注模式实现实体和关系的联合抽取。将实体和关系抽取任务转化为序列标注问题,对实体和关系进行同步标注,有效提高标注效率;为了解决重叠关系抽取问题,直接对三元组建模而不是分别对实体和关系建模,通过标签匹配和映射即可获得三元组数据。利用来自转换器的双向编码器表征量(Bidirectional Encoder Representations from Transformers,BERT)-双向长短期记忆网络(Bi-directional Long-Short Term Memory,BiLSTM)+条件随机场(Conditional Random Field,CRF)端到端模型进行试验,结果表明效果优于基于普通标注方式的流水线方法和联合学习方法中的卷积神经网络(Convolutional Neural Networks,CNN)+BiLSTM+CRF、BiLSTM+CRF等经典模型,F1得分为91.34%。最后,将抽取到的知识存储到Neo4j图数据库中,直观地反映知识图谱的内部结构,实现知识可视化和知识推理。该研究构建的知识图谱可为作物病虫害智能问答系统、推荐系统、智能搜索等下游应用提供高质量的知识库基础。  相似文献   

5.
在渔业标准文本中,定量指标识别对标准内容服务具有重要的意义,针对目前常用的命名实体识别方法对渔业标准定量指标识别准确率不高的问题,该研究提出了融合注意力机制与BERT+BiLSTM+CRF(BidirectionalEncoder Representations from Transformers+Bi-directional Long Short-Term Memory+Conditional Random Field,来自转换器的双向编码器表征量+双向长短时记忆网络+条件随机场)模型的渔业标准定量指标识别方法,该方法将渔业标准中定量指标拆分为指标名、指标值、单位、限制词4类实体,通过分析渔业标准语料的特点发现位置信息对指标名等实体识别效果具有重要影响,首先利用BERT模型中位置向量信息提高指标名等实体的识别效果,其次采用BiLSTM(Bi-directional Long Short-Term Memory,双向长短时记忆网络)模型学习渔业标准文本定量指标中长序列语义特征,然后再将注意力机制与BERT+BiLSTM模型进行融合以解决长序列语义稀释问题,最后利用CRF(Conditional Random Field,条件随机场)层得到预测序列标签。试验结果表明,融合注意力机制与BERT+BiLSTM+CRF模型的渔业标准定量指标识别准确率为94.51%、召回率为96.37%、F1值为95.43%,研究表明,该方法解决了渔业标准定量指标识别准确率不高的问题,可以比较准确地识别由指标名、指标值、单位、限制词组成的渔业标准定量指标,是一种有效的渔业标准定量指标识别方法,可为农业、医学、生物等其他领域定量指标命名实体识别提供新思路。  相似文献   

6.
疾病诊治是水产动物健康养殖工程的重要支撑,知识图谱是水产动物疾病诊治知识表示及应用的有效手段,命名实体识别是构建水产动物疾病诊治知识图谱的关键。针对一词多义、实体嵌套等导致的水产动物疾病诊治命名实体识别准确率不高的问题,该研究提出了融合BERT(Bidirectional Encoder Representations from Transformers)与CaBiLSTM (Cascade Bi-directional Long Short-Term Memory)的实体识别模型。首先,建立水产动物疾病诊治专用语料库,并利用语料库中的数据对设计的模型进行训练;其次,采用"分层思想"设计CaBiLSTM模型进行嵌套实体识别,用降维的内层实体特征提升外层实体的辨析度,并引入BERT模型增添实体位置信息;最后,为验证所提出方法的有效性进行对比试验。试验结果表明,提出的融合BERT与CaBiLSTM模型对水产动物疾病诊治命名实体识别准确率、召回率、F1值分别达到93.07%、92.85%、92.96%。研究表明,该模型能够有效解决水产动物疾病诊治命名实体识别过程中由于一词多义、实体嵌套等导致的识别准确率不高问题,可提高水产动物疾病诊治知识图谱的构建质量,促进水产健康养殖工程发展。  相似文献   

7.
基于实体级遮蔽BERT与BiLSTM-CRF的农业命名实体识别   总被引:1,自引:1,他引:0  
字符的位置信息和语义信息对命名方式繁杂且名称长度较长的中文农业实体的识别至关重要。为解决命名实体识别过程中由于捕获字符位置信息、上下文语义特征和长距离依赖信息不充足导致识别效果不理想的问题,该研究提出一种基于EmBERT-BiLSTM-CRF模型的中文农业命名实体识别方法。该方法采用基于Transformer的深度双向预训练语言模型(Bidirectional Encoder Representation from Transformers,BERT)作为嵌入层提取字向量的深度双向表示,并使用实体级遮蔽策略使模型更好地表征中文语义;然后使用双向长短时记忆网络(Bidirectional Long Short-Term Memory,BiLSTM)学习文本的长序列语义特征;最后使用条件随机场(Conditional Random Field,CRF)在训练数据中学习标注约束规则,并利用相邻标签之间的信息输出全局最优的标注序列。训练过程中使用了焦点损失函数来缓解样本分布不均衡的问题。试验在构建的语料库上对农作物品种、病害、虫害和农药4类农业实体进行识别。结果表明,该研究的EmBERT-BiLSTM-CRF模型对4类农业实体的识别性能相较于其他模型有明显提升,准确率为94.97%,F1值为95.93%。  相似文献   

8.
用BERT和改进PCNN模型抽取食品安全领域关系   总被引:1,自引:1,他引:0  
为了提高食品安全领域关系抽取的效率和准确性,该研究在收集食品安全领域语料的基础上,对语料中相应的实体和关系进行标注,构建可用于食品安全领域关系抽取的专业数据集。同时,提出面向食品安全领域的基于BERT-PCNN-ATT-Jieba的关系抽取模型,该模型使用基于转换器的双向编码器表征量(Bidirectional Encoder Representations from Transformers,BERT)预训练模型生成输入词向量,并结合分段卷积神经网络(Piecewise Convolutional Neural Network,PCNN)模型的分段最大池化层能极大程度捕获句子局部信息的特点,在分段最大池化层与分类层之间添加了注意力机制,以进一步提取高层语义。此外,考虑中文语料的特性,在BERT模型进行随机掩码切分之前,采用Jieba分词技术对中文语料进行分词,PCNN模型在执行掩码语言模型(Masked Language Model,MLM)时以词为单位进行掩码,使得输入到训练模型中的句子尽可能减少语义损失,以实现更高效的关系抽取。在该研究构建的数据集基础上,将BERT-PCNN-ATT-Jieba模型与经典的卷积神经网络(Convolutional Neural Network,CNN)、PCNN模型、以及结合BERT的CNN、PCNN、PCNN-ATT、PCNN-Jieba等6个模型进行比较,该研究提出的BERT-PCNN-ATT-Jieba模型取得更优的性能,其准确率达到84.72%,召回率达到81.78%,F1值达到83.22%。该模型为食品安全领域的知识抽取提供参考,为该领域知识图谱的自动化构建节约了成本,同时为基于该领域知识图谱的知识问答、知识检索、数据共享及食品安全智慧监管等应用提供依据。  相似文献   

9.
人类营养健康命名实体识别旨在检测营养健康文本中的营养实体,是进一步挖掘营养健康信息的关键步骤。虽然深度学习模型广泛应用在人类营养健康命名实体识别中,但没有充分考虑到营养健康文本中含有大量的复杂实体而出现长距离依赖的特点,且未能充分考虑词汇信息和位置信息。针对人类营养健康文本的特点,该研究提出了融合规则与BERT-FLAT(Bidirectional Encoder Representations from Transfromers-Flat Lattice Transformer,转换器的双向编码器表征量-平格变压器)模型的营养健康文本命名实体识别方法,识别了营养健康领域中食物、营养物质、人群、部位、病症和功效作用6类实体。首先通BERT模型将字符信息和词汇信息进行嵌入以提高模型对实体类别的识别能力,再通过位置编码与词汇边界信息结合的Transformer模型进行编码以提高模型对实体边界的识别效果,利用CRF(Coditional Random Field,条件随机场)获取字符预测序列,最后通过规则对预测序列进行修正。试验结果表明,融合规则与BERT-FLAT模型的人类营养健康领域识别的准确率为95%,召回率为88.88%,F1分数为91.81%。研究表明,该方法是一种有效的人类营养健康领域实体识别方法,可以为农业、医疗、食品安全等其他领域复杂命名实体识别提供新思路。  相似文献   

10.
基于双重注意力机制的渔业标准实体关系抽取   总被引:4,自引:3,他引:1  
针对渔业标准实体关系抽取任务中存在重叠关系导致的效果不好问题,提出了基于双重注意力机制的实体关系抽取方法。首先,提出了一种句式分类标注策略,以解决渔业标准文本中重叠关系难以标注的问题;其次,提出了结合双重注意力机制与BERT-BiLSTM-CRF(Bidirectional Encoder Representations from Transformers-Bi-directional Long Short-Term Memory-Conditional Random Field)的渔业标准实体关系抽取模型,分别利用字级别注意力机制和句子级别注意力机制优化权重分配、消除噪音,进而提高关系抽取的准确性;最后,为验证所提出方法的有效性设计了对比试验,结果表明,基于双重注意力机制的实体关系抽取方法在DLOU-FSI(Fishery Standard Interaction)数据集(36万字符)上准确率、召回率、F1值分别达到了92.67%、92.31%、92.49%。研究表明,该方法可有效解决渔业标准关系抽取任务中存在的重叠关系问题,提升了渔业标准实体关系抽取的整体效果,为构建渔业标准知识图谱提供参考。  相似文献   

11.
刘爽  丁哲  吕超  朱珊珊 《农业工程学报》2023,39(24):215-223
针对远洋渔船问题信息的知识挖掘与分析任务中存在渔船安全知识提取深度不足、安全问题文本分类精度不够的问题,该研究在归纳中国沿海8省市远洋渔业管理机构和企业的约5000条远洋渔船安全问题文本数据特征的基础上,提出一种整合文本分类、知识挖掘和共现网络分析技术的远洋渔船安全问题分析方法。首先,构建基于双向预训练语言模型与文本卷积神经网络的混合深度学习模型BERT-TextCNN(bidirectional encoder representations from transformers-text convolutional neural networks),对渔船安全问题文本进行基于《开普敦协定》规定的精准主题分类。进一步利用基于主题的词频-逆文档频率算法TF-IDF(term frequency-inverse document frequency),提取各主题下的关键渔船安全知识。最后,绘制渔船安全知识共现网络图,可视化分析各知识的分布规律及内在联系。结果表明,BERT-TextCNN模型对渔船安全问题文本的分类精度相较于BERT、Word2vec、Character embedding文本表示方法和DPCNN、BiLSTM-Attention、RCNN等6种神经网络的其他17种对比模型提升较为明显,准确率、宏平均召回率、宏平均F1值分别达98.20%、98.02%、98.05%;基于主题的渔船安全知识挖掘方法可以展示远洋渔船安全工作的重点排序和关系网络图,涵盖渔船的机电设备、消防装置、救生设备、无线电通信等10类安全知识。该方法可为相关渔业管理人员提供高质量的渔船安全知识服务,对国内远洋渔业的安全管理效率、履约水平、智慧渔业工程的应用和发展有促进作用。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号