我们就可以通过丰富的属性信息来较为完整地刻画一个实体

2024-03-04 6:19:50 体育百科 admin

  近日,持续一个月的2020欧洲杯赛事落下帷幕,足球作为“世界第一运动”自然少不了关注,喝着啤酒看着比赛最是惬意,在这个热情似火的夏天,足球带来了太多值得铭记的瞬间,有欢笑也有遗憾;但或许也有许多人因事务繁忙而错过比赛直播,不过别急,阿虎虎这就用知识图谱带你回顾欧洲杯。

  

  我们先简单介绍一下知识图谱。在维基百科的官方词条中:知识图谱是Google用于增强其搜索引擎功能的知识库。本质上,知识图谱是一种揭示实体之间关系的语义网络,可以对现实世界的事物及其相互关系进行形式化地描述。

  三元组是知识图谱的一种通用表示方式,基本形式主要包括两种:

  1.实体1+关系+实体2 实体是知识图谱中最基本元素,可理解为某个对象、个体。举例:“C罗效力于尤文图斯队”,C罗和尤文图斯队是两个不同实体,效力就是两者之间的关系。

  2.概念+属性+属性值,概念可理解为集合、类别,如人物、国家等;属性即特性、特征,如年龄、性别、面积等;属性值就是该属性的值。举例:“尤文图斯市值9.22亿欧”,尤文图斯是足球俱乐部,市值是可用于描述俱乐部的一个属性,在这里属性值为9.22亿欧。

  知识图谱正是由许许多多这样的三元组构成,它们互相连接,最终形成类似于网状的结构,进而表达更复杂的信息。基于此,阿虎虎制作了欧洲杯版的知识图谱,通过下面两张图,便能一览本次赛事。

  

  

  上面其实是简单版的知识图谱,所涉及的实体和关系比较单一,但在实际应用中,各实体间的逻辑关系要远比这复杂得多。

  上文提到三元组主要包括两种基本形式:实体1+关系+实体2和概念+属性+属性值。

  第一种形式的构建所涉及到的自然语言处理技术主要是1.实体命名识别2.关系抽取3.实体统一 4.指代消解

  第二种形式所涉及到的自然语言处理技术与第一种差不多,但应注意的是,第二种技术“关系抽取”需要换成“属性抽取”。

  

  属性抽取(Attribute Extraction):属性抽取的目标是从不同信息源中采集特定实体的属性信息。概念比较抽象,下面通过一则新闻来了解一下属性抽取。

  北京时间7月12日凌晨,随着2020欧洲杯决赛落下帷幕,本届赛事射手王也已诞生——克里斯蒂亚诺·罗纳尔多凭借5粒进球夺得金靴!

  虽然葡萄牙在16强战阶段就早早被淘汰,但已经36岁的C罗还是代表葡萄牙队留下了4场比赛5粒进球(其中3粒点球)以及1记助攻的数据。

  根据规则,进球数相同的情况下,先比助攻数,如若还相同则比较出场时间。因此,C罗得以以助攻数的优势,力压同样打进5球的捷克锋霸希克,摘得赛事金靴。

  作为欧洲杯历史射手王,C罗目前的纪录定格在14球;不过这却是C罗首次拿到当届欧洲杯金靴,2016年他不敌格里兹曼斩获银靴。另外,这也是C罗首次夺得大赛金靴。

  这则新闻需要用到的三元组两种形式都有,但今天我们主要讲“属性抽取”,所以这里只谈第二种:概念+属性+属性值

  第二种形式的语句有“已经36岁的C罗”、“留下了4场比赛”、“纪录定格在14球”、“2016年他斩获银靴”等,属性抽取的难点在于除了要识别实体的属性名还要识别实体的属性值,比如“已经36岁的C罗”这句,属性名为“年龄”,属性值为“36岁”。

  “属性抽取”可以大大丰富知识图谱的信息丰富度,从多层面详细刻画各个实体,比如人物实体的生日、性别、国籍等,都是它的属性信息,通过属性抽取,通过多个数据源的获取,我们就可以通过丰富的属性信息来较为完整地刻画一个实体。

  

  现在,一个基于上述文本的简单知识图谱就大概形成了,在知识图谱的帮助下,上面一段比较杂乱的非结构化数据脉络变得清晰起来,也更便于对其进行深加工。

  

  (对新闻信息处理后构建的知识图谱)

  除了上述的技术外,知识图谱的构建还需要其他各种技术的支持,这里就不一一展开了。在实际应用中,知识图谱的业务类型也是非常丰富的,比如:

  1.KBQA问答("knowledge base question answering"基于知识图谱的问答),通过对问题进行语义理解及解析,通过知识库进行查询,如输入“C罗的国籍是什么?”,KBQA就会基于知识图谱的实体或关系,输出“葡萄牙”,而传统的问答模式输出的是网页,而不是最终答案,这是根本性区别,因此KBQA更加智能与高效,能够较好地实现所得即所想,节约时间,提高效率。

  KBQA可以给企业带来巨大收益,对内可以减少无效劳动,提高员工工作效率;对外可以精准识别用户意图,优化用户体验,增加用户粘性,从而为企业带来长远收益。

  2.搜索+推荐,结合行业知识图谱等知识间的关联推理信息,实现相关内容自动推荐,拓展用户搜索边界,将信息精准地推荐给目标用户。如电商可以给客户推荐他们想要的产品,媒体给客户推荐他们想要的资讯等。

  3.逻辑决策辅助,利用知识图谱的知识,对知识进行分析处理,通过一定规则的逻辑推理,得出对于某种结论,为用户决断提供支持。如金融行业基于知识图谱,可模拟经济学的涟漪效应(如一个人支出的减少会造成其他人收入的减少,连带也使得他们可支出的金额减少),对期货投资决策提供支持。再如园区可基于产业链的上中下游关系,做出招商引资决策。

  4.关联挖掘+根因分析,通过知识图谱挖掘事物之间的深层联系,找出根源并进行分析。如在智能制造领域,基于知识图谱可以快速定位到某个零部件的供应商或是说明书,在产品出现问题时,可以帮助售后快速并精准定位到具体原因,从而解决问题。

  

  关于知识图谱的应用,虎博科技已经达成了不少落地案例,比如方正案例

  方正证券APP“小方“App引入虎博科技智能搜索引擎,对所有业务板块数据进行整合,整合了7大服务频道,以统一的搜索框作为信息入口,向用户提供智能化的一站式全场景信息服务。借助语义理解、实体识别、知识图谱等技术,“小方”APP能够准确理解用户的信息需求,并实现数据穿透,向用户反馈与搜索意图紧密关联的有效信息,多维度提供搜索结果,从而连接用户、价值信息和目标产品。

  在此案例中,知识图谱起到的作用是关联挖掘,对产品进行多属性智能关联,连接用户和产品,提升产品的转化率。可统计范围内容,在引入虎博智能搜索引擎后,其信息服务效率提升至少50%,不仅缩短了服务路径,且有效节省运营人力成本,促进线上营收增长。

我们就可以通过丰富的属性信息来较为完整地刻画一个实体

我们就可以通过丰富的属性信息来较为完整地刻画一个实体

发表评论:

最近发表