背景
当今互联网、物联网、云计算等技术不断发展的环境下,各类应用层出不穷,因此产生了海量的数据资源,其中包含大量有价值的知识。这吸引了许多研究人员对其进行深入挖掘和分析。如何组织表达这些知识,以便作进一步的计算和分析备受关注。知识图谱作为丰富直观的知识表达方式应运而生。
目前,已经涌现出一大批知识图谱,其中具有代表性的有KnowItAll、YAGO、DBpedia、Freebase、NELL、Probase等。这些知识图谱从大量数据资源中抽取、组织和管理知识,希望为用户提供能够读懂用户需求的智能服务,例如理解搜索的语义,提供更精准的搜索答案。
简介
知识图谱2012年由谷歌提出,最早应用在其搜索引擎中。Google知识图谱的宣传语“things not strings”给出了知识图谱的精髓,即,不要无意义的字符串,而是获取字符串背后隐含的对象或事物。
知识图谱(Knowledge Graph),在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。
知识图谱是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。它能为学科研究提供切实的、有价值的参考。
- 知识图谱是一个关系图,类似数据库中的E-R图。
- 知识图谱是一种技术,类似人工智能中的语义网络,复杂网络,是通过某种算法和规则,表示知识的技术。
- 知识图谱是一个过程,是从大数据中获取、存储并推理得到并以一种更直观的方式表示知识的过程。
基本组成
构成知识图谱的核心是三元组:实体(Entity)、属性(Attribute)和关系(Relation),可以表示为 <实体1,关系,实体2> 或 <实体1,属性1,属性值1>,例如:<Google,is-a,人工智能公司>;<人工智能公司,subclass,高料技公司>
基于已有的知识图谱三元组,可以推导出新的关系。例如:<翅膀 part-of 鸟>,<麻雀kind-of 鸟>,可以推导出<翅膀 part-of 麻雀>。
将实体(包括概念、属性值)表示成图上的节点,节点之间的连边对应实体之间的关联关系,以一个网络化的结构表征所获得的知识,清晰、直观.
构建过程
1.知识抽取
知识抽取会从大数据中抽取大量的实体和关系。大数据表示数据的来源非常广泛并且数量庞大。数据源可以是平时大家阅读的书籍,文献资料,可以是类似于excel表格的结构化的数据,可以是网页的数据(比如一篇文章),可以是图片,语音。
从这些数据源中提取文本信息再基于自然语言处理技术,抽出其中的实体,关系和勾画它们的属性信息。
2.知识融合
目前分布在互联网上的知识常常以分散、异构、自治的形式存在,另外还具有冗余、噪音、不确定、非完备的特点,清洗并不能解决这些问题,因此从这些知识出发,通常需要融合和验证的步骤,来将不同源不同结构的数据融合成统一的知识图谱,以保证知识的一致性。所以数据层往上一层实际上是融合层,主要工作是对获取的数据进行标注、抽取,得到大量的三元组,并对这些三元组进行融合,去冗余、去冲突、规范化
3.知识存储
获得了高质量的知识。人们会将知识存储在大脑当中,而机器则会将知识存储在类似大脑的数据库之中。
4.知识推理
知识推理主要是根据图谱提供的信息得到更多隐含的知识,像是通过本体或者规则推理技术可以获取数据中存在的隐含知识;通过链接预测来预测实体间隐含的关系;通过社区计算在知识网络上计算获取知识图谱上存在的社区,提供知识间关联的路径……
通过知识推理知识图谱可以产生大量的智能应用如专家系统、推荐系统、语义搜索、问答等。
知识图谱主要有自顶向下(top-down)与自底向上(bottom-up)两种构建方式。
- 自顶向下指的是先为知识图谱定义好本体与数据模式,再将实体加入到知识库。该构建方式需要利用一些现有的结构化知识库作为其基础知识库,例如Freebase项目就是采用这种方式,它的绝大部分数据是从维基百科中得到的。
- 自底向上指的是从一些开放链接数据中提取出实体,选择其中置信度较高的加入到知识库,再构建顶层的本体模式。目前,大多数知识图谱都采用自底向上的方式进行构建,其中最典型就是Google的Knowledge Vault和微软的Satori知识库。
分类
- 通用知识图谱:实际上是谷歌或者百度这样的大型的互联网公司在构建的,最主要是用于搜索引擎,面向的是通用领域,用户是全部的互联网的用户,以构建常识性的知识为主,包括结构化的百科知识,强调的更多的是一种知识的广度,对知识的深度方面不做更多的要求,使用者也是普通的用户。
- 行业知识图谱:面向一个特定的领域,数据来源是来特定行业的语料,基于行业的数据来构建,而且要有一定的行业的深度,强调更多的是深度,而不是广度,能够解决行业人员的问题,使用者也是这个行业内的从业人员,或是这个领域里面的专业人员。
通用知识图谱和行业知识图谱,并不是说完全互相独立的,是具有互相互补性的关系。一方面,通用知识图谱会不断的吸纳行业或者领域知识图谱的知识,来扩充它的知识面,然后增加它的知识的广度。同时,在构建一个行业知识图谱或者领域知识图谱的时候,实际上也并不是说只局限在这个领域的基本的数据,我们同时还要去通用知识图谱里面去吸纳更多的常识性的知识来作为补充,只有这样才能构成一个非常完整的行业知识图谱。
应用
- 推荐:
通过对不同平台信息整合形成个人知识图谱,购物软件进行知识推理,能对个人进行更加方便智能的商品推荐。 - 反欺诈案调:
在金融领域非常重要的一个环节就是反欺诈案调,传统的方法做案调是非常困难的,对于团伙欺诈的判别是非常困难的,使用知识图谱技术就可以很容易的发现目标客户周边人员情况以及其周边人员历史进件情况,业务人员通过观察目标客户的子图就可以方便直观的对目标客户的欺诈情况进行判断。 - 企业信息展示:
通过知识图谱可以很直观的对企业的法人信息,参股信息,企业经营状况,企业大事件等信息进行直观展示,以实现人们对一个公司状况的直观快速了解。 - 通用知识图谱搜索:
通过知识图谱实现人们对所要查询信息的全方位深入形象的展示。 - 智能客服:
知识图谱技术在智能客服上的应用可能会更进一步的提高智能客服的精准度, 通过图中的实体与边的关系就很容易的得出我们想要的答案,在数据足够丰富与精确的情况下,基于知识图谱的智能客服系统的精准度极有可能是要优于传统实现的技术的,在知识图谱技术在越来越被广泛使用的今天,相信不久的将来我们就能看到智能化程度、精准度更高的智能客服技术。
对于知识图谱的应用方向涉及到生活中的方方面面—–医疗行业(知识库、病例库、诊疗方案库、KBQA)、电商(推荐引擎6)、互联网金融(反欺诈、实时授信、催收管理、失联修复)、社交网络、机器学习、深度学习等。在这里就不逐一举例。总之,知识图谱使得人工智能可被理解和解释,所以知识图谱有着非常广泛的应用前景等待着人们去探索发现。