【转】基于VSM的命名实体识别、歧义务消防队解和取代消解

基于机器学习方法的事件指代消歧的基本框架发布于:2014-04-21
13:14发布人:亿商网来源:亿商网点击量:354重庆中学生网小升初本文实现了一个基于机器学习的事件指代消解平台。基于机器学习的方法在实体指代消解中应用很广泛,而且取得了较好的效果(如Soon等【
],Ng等[7j)。由于与实体指代存在较大的差异,我们的事件指代消解平台采用『特殊的实例生成策略和特征空间。本节将介绍本事件指代消解平台的基本框架。

针对事件指代消歧的研究发布于:2014-04-21
13:13发布人:亿商网来源:亿商网点击量:280重庆中学生网小升初目前针对事件指代消歧的研究主要包含两类:1)由ACE定义的基于模板的事件抽取任务所驱动的事件指代消歧,其主要任务是找出文档中所有共指的事件,将其归类。典型的工作包括Zheng(;hen等[1]把整个事件共指消解过程看作是一个聚类任务,通过比对每一对事件,利用最大熵模型判断每一个活动事件与前面的事件是否归并为一类,到稿日期:2011—06—15
返修日期:2011—09—15
本文受国家自然科学基金(90920004,60970056,61070123,61003153),江苏省高校自然科学重大基础研究项目(08KJA520002),苏州市科技计划项目(SYG201112)资助。张宁(1986一),男,硕士生,主要研究方向为自然语言处理,E-mail:zhn.email@gmail.com;孔芳(1977一),女,副教授,主要研究方向为自然语言处理;李培峰(1971一),男,副教授,主要研究方向为中文信息处理与自然语言理解;朱巧明(1963一),男,教授,博士生导师,主要研究方向为自然语言处理、网格计算。·
229
·2)处理指代词与某一事件表述间的指代关系,其中指代词通常是名词性的(包含名词短语,如例2;也可以是代词,如例3)。典型的工作包括Chen等【
首次系统地阐述了事件代词的消解,该文利用Soon等人l4]的基于机器学习的指代消解模型提出_r一个事件代词指代消解系统,它综合使用了平面特征和结构化句法特征,利用卷积树核来抽取标志性、结构化的句法知识,还用了双候选先行词来提高指代消解系统的性能。这篇文章主要探讨了各种机器学习方法对事件指代消解的影响,例如双候选模型、利用开发集调参等。Chen等l5
在前期工作的基础上补充了指代词为普通名词短语状况下的事件指代消解,进一步完善了消解系统。Kong和Zhou[6
在文献[3]的基础上探讨了与指代词和先行事件候选具有竞争关系的信息对事件指代消歧的影响。

        向量夹角cos相似度

       
通过赋值权重后的向量矩阵,计算两个文本间的相似性就通过它们相应的向量夹角cos俩描述。文本D1和D2的相似性公式如下:

图片 1

       
VSM利用权值来表征词和文本之间的关联性,分别依次计算文本之间的相似度,按文本相似度排序并结合一定聚类算法即可实现实体消歧、指代消解等工作。
       
缺点:计算量太大、添加新文本需要重新训练词的权值、词之间的关联性没考虑
        

下面我们把重点放在知识图片在金融领域的一些应用。

        TF-IDF

       
特征抽取完后,因为每个词语对实体的贡献度不同,所以需要对这些词语赋予不同的权重。计算词项在向量中的权重方法——TF-IDF。
        它表示TF(词频)和IDF(倒文档频率)的乘积

图片 2

       
其中TF表示某个关键词出现的频率,IDF为所有文档的数目除以包含该词语的文档数目的对数值。

图片 3

        |D|表示所有文档的数目,|w∈d|表示包含词语w的文档数目。
        最后TF-IDF计算权重越大表示该词条对这个文本的重要性越大,

我们先来看下把这段文字变成知识图谱的方式表达的结果:

二. VSM相似度计算

       
在研究中文本跨文本指代消解、汉语命名实体识别和实体歧义消解过程中,可能都会用到基于VSM的相似度计算,再结合聚类方法完成。

 

知识图谱最开始是Google为了优化搜索引擎提出来的,推出之后引起了业界轰动,随后其他搜索公司也纷纷推出了他们的知识图谱。知识图谱发展到今天,不仅是应用在搜索行业,已经是AI的基础功能了。那到底知识图谱是什么?有什么能力?怎么应用?这就是本文想要讨论的内容。

       
前面讲述过两篇知识图谱相关的文章,这篇文章主要讲解基于向量空间模型(Vector
Space
Model)的相关应用,包括命名实体识别、实体消歧和跨文本指代消解;其最终目的是想通过它应用到知识图谱构建过程中,即实体对齐和属性对齐。
     
  知识图谱相关会议之观后感分享与学习总结
        搜索引擎和知识图谱那些事
(上).基础篇

  1. 图数据库

        实体相似度计算

        实体相似度计算的两个基本步骤:
        1.特征向量构造
       
特征向量构造通过衡量每个特征词与实体的共现度不同分别赋予不同的权值,通过TF-IDF计算词项在向量中的权重。
        2.余弦方法进行特征向量相似度计算
       
如果两者之间的相似度超过某一预定义的阈值,那么认为实体表述是共指关系。
       
实体消歧就是通过计算di的文本特征与每个候选词维基特征的相似度判断di的词义,最基本的示意图如下所示:

图片 4

       
同样还有一些更简单的相似度计算方法,如:最小编辑距离方法、Jaro-Winkler距离、Monge-Elkan距离。
       
最小编辑距离指两个字符串之间,由一个转换成另一个所需要的最小编辑操作次数,包括替换(代价2)、插入、删除(代价1)。设计算得到最小编辑距离为min_ed,则两字符串归一化后相似度为:

图片 5

        其中max_ed为源串s到目标传t之间没有操作的编辑距离。

       
最后关于实体对齐的方法就不论述了,因为毕业设计还在实现中,但如果你仔细读到此处,你大概也可以猜出个简单的方法。同样如果想提高消歧的结果,可以设定阈值=相似度最高-相似度次高;或采用多步聚类算法、Word2Vec神经网络训练词向量等。
     
  由于是正在做的毕业设计,最后需要查相似度和重复率,所以有些东西点到即可;但我更想分享一些知识图谱、实体对齐、实体消歧这些东西给大家,而不是为了通过审核获得硕士学位。所以和本科毕设“Eastmount安全软件”一样,研究到哪里就分享到哪里,后面还会继续研究并分享实现过程和代码。
        性格使然吧!但内心愉悦就好。
        从晚上2点写到早上6点,不容易啊!且看且珍惜吧!
     
  总之,最后还是希望文章对你有所帮助,如果有错误或不足之处,还请海涵~
        (By:Eastmount 2015-9-20 凌晨6点
  )

参考资料:
        基于多步聚类的汉语命名实体识别和歧义消解 By: 李广一 王厚峰
        Comparing Datasets by Attribute Alignment
        A survey on ontology mapping
        Ontology mapping the state of the art
        一种基于语义词典的本体对齐框架 By: 杨舟
        基于多种数据源的中文知识图谱构建方法研究 By: 胡芳槐
        中文跨文本指代消解研究 By: 黄丹凤
        基于LDA和Word2Vec的推荐算法研究 By: 董文
        基于维基百科的命名实体消歧研究 By: 唐博蓉
        基于中文维基百科的命名实体消歧方法研究 By: 杜婧君

因为底层知识图谱已经有了周杰伦和昆凌是夫妻关系,所以可以理解到你要找的是昆凌,而不是周杰伦,这也说明了知识图谱有理解用户意图的能力。

        爬取InfoBox介绍

       
在下面这篇文章中我介绍过如何通过Python+Selenium+PhantomJS爬取InfoBOx的信息。[Python爬虫]
Selenium获取百度百科旅游景点的InfoBox消息盒

图片 6

       
这种方法是首先人工标注实体,再在三大在线百科中构建一个核心的实体集,然后进行迭代式丰富。个人认为类似于复旦大学的GDM实验室的知识图谱,它包括四个部分:实体和概念抽取、实体评估、实体消解和关系抽取。

 

 

更复杂点的,可能需要知识图谱通过一些关系去推理了。比如说“借款人”跟小明和小秦都是母子关系,按推理的话小明跟小秦应该是兄弟关系,而在知识图谱上显示的是朋友关系,就有可能有异常了,因此也需要重点关注。

 

因此在失联的情况下,知识图谱可以挖掘更多失联人的联系人,从而提高催收效率。

 

  1. 可视化表现

 

提取文本中的实体,并对每个实体进行分类或打标签,比如把文中“1984年12月30日”记为“时间”类型;“克利夫兰骑士”和“迈阿密热火”记为“球队”类型,这个过程就是实体命名。

 

指代消解跟实体统一类似,都是处理同一个实体的问题。比如说文本中的“他”其实指的就是“勒布朗詹姆斯”。所以指代消解要做的事情就是,找出这些代词,都指的是哪个实体。


搜狗知立方介绍

RDF一个重要的设计原则是数据的易发布以及共享,另外,RDF以三元组的方式来存储数据而且不包含属性信息。

  1.        
    搜狗知立方框架图
  2.        
    实体对齐和属性值决策
  3.        
    爬取InfoBox介绍

实体指的可以是现实世界中的事物,比如人、地名、公司、电话、动物等;关系则用来表达不同实体之间的某种联系。

        向量空间模型VSM

        向量空间模型(Vector Space
Model,简称VSM)表示通过向量的方式来表征文本。一个文档(Document)被描述为一系列关键词(Term)的向量:

图片 7

       
其中ti(i=1,2,…n)是一列相互之间不同的词,wi(d)是ti在d中权值通常可以被表达为ti在d中呈现频次tfi(d)的函数为:

图片 8

       
而文本集,向量空间中的N个文本能通过矩阵进行描述,其中矩阵中的任意一项为文本中某个词的权值,如下:

图片 9

       
最简单的计算词权值的方式就是:假设词呈现在文本中,那么对应的权重就为1;若无权值就为0,。但它无法表征词在文本中呈现的频次。

图片 10

        基本概念

     
  实体消歧:一个命名实体的指称项可以对应多个实体概念,消歧需要把具有歧义的指称项映射到它实际所指实体的概念上。经典例子如下所示:根据上下文的信息,将“苹果”和“乔布斯”进行命名实体消歧确定为“苹果(公司)”。

 

图片 11

       
跨文本指代消解:指将分布在多个不同文章中且指向同一名称实体的所有代词聚合成一个指代链。一般在指代过程中有两种现象,即“多名”现象和“重名”现象。解决多名现象的方法即“多名聚合”,解决重名现象的方法即“重名消歧”,这正是跨文本指代消解亟待解决的两个任务。指代这种常见的语言现象广泛存在于自然语言中,通常分为两种回指和同指。
       
其中主流方法包括:基于规则的方法、基于统计的方法、基于分类的方法、利用上下文信息和网络挖掘技术自动判别代词的语义类别的方法等。

知识图谱构建的过程中,最主要的一个步骤就是把数据从不同的数据源中抽取出来,然后按一定的规则加入到知识图谱中,这个过程我们称为知识抽取。

目录(?)[-]

如上左图,小明在腾讯上班,小秦也在腾讯上班,从这样的关系,我们可以推理出,小明和小秦是同事关系。

  1.      
      基本概念
  2.      
      向量空间模型VSM
  3.        
    TF-IDF
  4.      
      向量夹角cos相似度
  5.      
      实体相似度计算

图数据库主要把重点放在了高效的图查询和搜索上,一般以属性图为基本的表示形式,所以实体和关系可以包含属性。

原文地址:

关系抽取是把实体之间的关系抽取出来的一项技术,其中主要是根据文本中的一些关键词,如“出生”、“在”、“转会”等,我们就可以判断詹姆斯与地点俄亥俄州、与迈阿密热火等实体之间的关系。

发表评论

电子邮件地址不会被公开。 必填项已用*标注

相关文章