OpenKG地址:http://openkg.cn/tool/gbuilder
网站地址:http://gbuilder.gstore.cn
知识图谱能够让机器去理解和认知世界中的事物和现象,并解释现象出现的原因,推理出隐藏在数据之间深层的、隐含的关系,使得知识图谱技术从最初谷歌用来提升搜索引擎的结果来增强用户体验,到现在已经被金融、公安、能源、教育、医疗等领域众多行业进行大量运用。
知识图谱作为大数据和人工智能时代的关键技术已经让越来越多的人意识到它的重要性和价值。知识图谱的应用现在处于“百花齐放”的状态。
知识图谱全生命周期分为构建、存储管理、应用三个阶段。
知识图谱的应用已经受到业内广泛关注,知识图谱的存储管理也有众多解决方案。例如我们前期研发的开源知识图谱图数据库系统gStore(http://www.gstore.cn/pcsite/index.html#/)就是知识图谱存储的工具。gStore在OpenKG上也有介绍 (http://www.openkg.cn/tool/gstore )
然而知识图谱构建却鲜有统一化的平台工具,但是这是知识图谱生命周期的技术难点之一。
这是由于知识图谱构建是一项需要花费大量的人力和时间,却不直接体现价值的工作,但知识图谱构建却是最基础、最关键的工作,是解决“巧妇难为无米之炊”窘境的核心手段。
北京大学王选计算机研究所和大数据分析与应用技术国家工程实验室(北京大学)邹磊教授团队通过两年时间,打造了知识图谱自动化构建平台gBuilder。gBuilder基于机器学习、自然语言处理、图数据库等技术可以实现对
结构化数据和非结构化数据
的知识抽取,并转化为知识图谱三元组。
Schema设计
无论是结构化项目还是非结构化项目,均需首先设计知识图谱Schema。知识图谱Schema一方面可以描述知识图谱中的实体类型、实体属性和关系等信息,另一方面也是知识图谱查询和分析的重要参考,相当于关系型数据库的表结构。
同现有的Schema设计方法不一样的是,gBuilder的Schema设计模块是一个轻量级的Web平台,以图的方式来表述知识图谱Schema,用户可以通过拖拽的方式在画布上设计类、类属性和关系。
结构化数据抽取
对于结构化项目而言,其知识抽取流程设计就是将结构化表及字段,与Schema中的实体类型、属性、关系等进行映射,并形成映射文件。
gBuilder自动化构建平台结构化数据抽取基于D2RQ平台,让用户显式地、可视化地处理结构化数据抽取的所有步骤,摆脱复杂的映射语言,易于使用。当前gBuilder能从MySQL、Oracle、SQL Server、PostgreSQL、达梦等关系型数据库中将数据100%准确的映射为RDF三元组数据。
非结构化数据抽取
对于非结构化数据抽取而言是当前知识图谱图谱构建的重难点,例如给下图一段文字,如何将里面的实体以及实体之间的关系准确抽取出来是一个关键问题。当前业内对于非结构数据的自动抽取产品还是较为欠缺。
对于非结构化项目而言,需要通过加载数据集、设计构建流程、开始构建、构建结束步骤。在构建流程中gBuilder通过可视化拖拽的方式来自定义构建非结构化数据知识图谱构建流程。同时gBuilder提供了大量的可选模型,它们有着不同的特性,以及在不同的数据上预训练,用户可以根据需求,挑选出最合适的模型作为构建模型,也可以使用自己的数据训练模型进行图谱构建。构建过程中可以随时使用系统自带的流程检查功能和测试功能来测试流程的正确性与构造效果。完成构建后,可以查看构建的结果,从非结构化数据集中抽取出了构建知识图谱所需要的三元组。
具体抽取流程示例如下,用户首先根据实际业务场景需要通过拖拽算子的方式构建数据抽取流程,然后输入非结构化数据,最后抽取出RDF三元组数据。例如输入“小明是小王的爸爸”测试数据,通过流程的一步步运行,最终抽取出“<小明> <父亲> <小王> ”三元组数据。
在gBuilder平台的非结构化数据抽取详细操作如下面动图所示:
最后通过gBuilder抽取的RDF三元组数据同gBuilder团队研发的gStore图数据库系统无缝衔接,再加上该团队研发的面向知识图谱自然语言问答引擎gAnswer,形成了覆盖知识图谱构建、知识图谱存储管理和知识图谱应用的完整生命周期的知识图谱一体化解决方案。
gBuilder整体采用微服务架构,主要模块包括可视化Flowline工具库,数据管理模块,项目管理模块、模型库和任务中心;其中模型库与任务中心等高负载组件采用多云融合方案,为用户提供弹性、实时和可扩展的知识图谱构建服务。
系统框架图
gBuilder具有可视化、易于使用、高扩展、高延伸、灵活性以及支持多种语言(英语、中文)的特性,有力的支撑知识图谱的构建,打破“巧妇难为无米之炊”的窘境。后续gBuilder也将支持更多数据模型的知识图谱构建以丰富知识图谱构建生态和实际业务需要。也期待更多同行者加入我们一起打造和完善图谱生态。