针对事件代表消歧的斟酌_指代消歧相关音讯_指代消歧相关供应_亿商网

针对事件指代消歧的研究发布于:2014-04-21
13:13发布人:亿商网来源:亿商网点击量:280重庆中学生网小升初目前针对事件指代消歧的研究主要包含两类:1)由ACE定义的基于模板的事件抽取任务所驱动的事件指代消歧,其主要任务是找出文档中所有共指的事件,将其归类。典型的工作包括Zheng(;hen等[1]把整个事件共指消解过程看作是一个聚类任务,通过比对每一对事件,利用最大熵模型判断每一个活动事件与前面的事件是否归并为一类,到稿日期:2011—06—15
返修日期:2011—09—15
本文受国家自然科学基金(90920004,60970056,61070123,61003153),江苏省高校自然科学重大基础研究项目(08KJA520002),苏州市科技计划项目(SYG201112)资助。张宁(1986一),男,硕士生,主要研究方向为自然语言处理,E-mail:zhn.email@gmail.com;孔芳(1977一),女,副教授,主要研究方向为自然语言处理;李培峰(1971一),男,副教授,主要研究方向为中文信息处理与自然语言理解;朱巧明(1963一),男,教授,博士生导师,主要研究方向为自然语言处理、网格计算。·
229
·2)处理指代词与某一事件表述间的指代关系,其中指代词通常是名词性的(包含名词短语,如例2;也可以是代词,如例3)。典型的工作包括Chen等【
首次系统地阐述了事件代词的消解,该文利用Soon等人l4]的基于机器学习的指代消解模型提出_r一个事件代词指代消解系统,它综合使用了平面特征和结构化句法特征,利用卷积树核来抽取标志性、结构化的句法知识,还用了双候选先行词来提高指代消解系统的性能。这篇文章主要探讨了各种机器学习方法对事件指代消解的影响,例如双候选模型、利用开发集调参等。Chen等l5
在前期工作的基础上补充了指代词为普通名词短语状况下的事件指代消解,进一步完善了消解系统。Kong和Zhou[6
在文献[3]的基础上探讨了与指代词和先行事件候选具有竞争关系的信息对事件指代消歧的影响。

基于机器学习方法的事件指代消歧的基本框架发布于:2014-04-21
13:14发布人:亿商网来源:亿商网点击量:354重庆中学生网小升初本文实现了一个基于机器学习的事件指代消解平台。基于机器学习的方法在实体指代消解中应用很广泛,而且取得了较好的效果(如Soon等【
],Ng等[7j)。由于与实体指代存在较大的差异,我们的事件指代消解平台采用『特殊的实例生成策略和特征空间。本节将介绍本事件指代消解平台的基本框架。

二. VSM相似度计算

       
在研究中文本跨文本指代消解、汉语命名实体识别和实体歧义消解过程中,可能都会用到基于VSM的相似度计算,再结合聚类方法完成。

 

  1. NLP的局限性

        实体相似度计算

        实体相似度计算的两个基本步骤:
        1.特征向量构造
       
特征向量构造通过衡量每个特征词与实体的共现度不同分别赋予不同的权值,通过TF-IDF计算词项在向量中的权重。
        2.余弦方法进行特征向量相似度计算
       
如果两者之间的相似度超过某一预定义的阈值,那么认为实体表述是共指关系。
       
实体消歧就是通过计算di的文本特征与每个候选词维基特征的相似度判断di的词义,最基本的示意图如下所示:

图片 1

       
同样还有一些更简单的相似度计算方法,如:最小编辑距离方法、Jaro-Winkler距离、Monge-Elkan距离。
       
最小编辑距离指两个字符串之间,由一个转换成另一个所需要的最小编辑操作次数,包括替换(代价2)、插入、删除(代价1)。设计算得到最小编辑距离为min_ed,则两字符串归一化后相似度为:

图片 2

        其中max_ed为源串s到目标传t之间没有操作的编辑距离。

       
最后关于实体对齐的方法就不论述了,因为毕业设计还在实现中,但如果你仔细读到此处,你大概也可以猜出个简单的方法。同样如果想提高消歧的结果,可以设定阈值=相似度最高-相似度次高;或采用多步聚类算法、Word2Vec神经网络训练词向量等。
     
  由于是正在做的毕业设计,最后需要查相似度和重复率,所以有些东西点到即可;但我更想分享一些知识图谱、实体对齐、实体消歧这些东西给大家,而不是为了通过审核获得硕士学位。所以和本科毕设“Eastmount安全软件”一样,研究到哪里就分享到哪里,后面还会继续研究并分享实现过程和代码。
        性格使然吧!但内心愉悦就好。
        从晚上2点写到早上6点,不容易啊!且看且珍惜吧!
     
  总之,最后还是希望文章对你有所帮助,如果有错误或不足之处,还请海涵~
        (By:Eastmount 2015-9-20 凌晨6点
  )

参考资料:
        基于多步聚类的汉语命名实体识别和歧义消解 By: 李广一 王厚峰
        Comparing Datasets by Attribute Alignment
        A survey on ontology mapping
        Ontology mapping the state of the art
        一种基于语义词典的本体对齐框架 By: 杨舟
        基于多种数据源的中文知识图谱构建方法研究 By: 胡芳槐
        中文跨文本指代消解研究 By: 黄丹凤
        基于LDA和Word2Vec的推荐算法研究 By: 董文
        基于维基百科的命名实体消歧研究 By: 唐博蓉
        基于中文维基百科的命名实体消歧方法研究 By: 杜婧君

 

考虑以上三个句子的结构,是什么被出售,被抓或者被找到。这就需要找到代词they的先行词thieves或者paintings.
这里其实下分两种计算技术,分别是指代消解(确定代词所指的目标),以及语义角色标注(确定名词短语如何与动词关联)

        基本概念

     
  实体消歧:一个命名实体的指称项可以对应多个实体概念,消歧需要把具有歧义的指称项映射到它实际所指实体的概念上。经典例子如下所示:根据上下文的信息,将“苹果”和“乔布斯”进行命名实体消歧确定为“苹果(公司)”。

 

图片 3

       
跨文本指代消解:指将分布在多个不同文章中且指向同一名称实体的所有代词聚合成一个指代链。一般在指代过程中有两种现象,即“多名”现象和“重名”现象。解决多名现象的方法即“多名聚合”,解决重名现象的方法即“重名消歧”,这正是跨文本指代消解亟待解决的两个任务。指代这种常见的语言现象广泛存在于自然语言中,通常分为两种回指和同指。
       
其中主流方法包括:基于规则的方法、基于统计的方法、基于分类的方法、利用上下文信息和网络挖掘技术自动判别代词的语义类别的方法等。

a. The thieves stole the paintings. They were subsequently sold.
b. The thieves stole the paintings. They were subsequently caught.
c. The thieves stole the paintings. They were subsequently found.

 

在人工智能的历史中,主要的智能测试是一种语言学测试,叫做图灵测试:一个响应用户文本输入的对话系统能否表现得如此自然以至于我们无法区分它是人工生成的响应?相比之下,今天的商业对话系统能力是非常有限的。以下是对话系统一般的NLP流程架构。我们可以尝试与NLTK模块下的chatbot谈话,运行nltk.chat.chatbots().

一. 搜狗知立方介绍

       
知识图谱的相关介绍及具体应用这里就不再叙述了,主要是想分享下搜狗知立方的知识图谱框架和我毕业设计所需要完成的工作。

 

  1. 自动生成语言

发表评论

电子邮件地址不会被公开。 必填项已用*标注

相关文章