# 知识图谱

现在还需要显式的 knowledge graph 吗?

知识图谱 (knowledge graph) 是一个描述实体及其关系的数据库。

数学推理应该是基于自然语言的,还是基于 lean 等结构化表述的?

# 知识图谱的历史

早期的知识图谱包括两个发展阶段:

  1. knowledge to data: 将知识使用数据存储。从引文索引中检索文献,是知识图谱最早期的研究。进而研究用文献之间的引证关系,研究知识发展的脉络。
    • symbolic logic: 符号逻辑
    • semantic network: 语义网络
    • expert system: 专家系统
      • Eg: Japanese 5th Generation Project, PROLOG
    • knowledge engineering: 知识工程
  2. data to knowledge: 从数据中提取知识
    • The Web 1.0: World Wide Web
    • semantic web: 语义网。希望将互联网数据化,网站间通过 relation 连接。这样可以将需要推理的知识转化为计算机可以理解的形式。
    • The Web 2.0: Collective Intelligence
      • Open and distributed data
      • Collective knowledge engineering: Wikipedia
    • Google Knowledge Graph

# 当前的知识图谱

  • Open Knowledge Graphs
    • DBpedia
    • YAGO
    • Freebase
    • Wikidata
  • Enterprise Knowledge Graphs
    • Google Knowledge Graph
    • Amazon, Uber, etc.

# 结构化知识

莎士比亚写了《罗密欧与朱丽叶》。可以转化成一个三元组:

  • 头实体:莎士比亚
  • 关系:写了
  • 尾实体:罗密欧与朱丽叶

结构化的知识组成一个有向图,图中的节点是实体,图中的边描述节点间的关系。

# 知识图谱上的推理任务

  • 预测链路
  • 预测实体
  • 预测属性

# 应用

  1. 搜索引擎:在 Google 搜索人名时,会出现这个人的简介,包括工作、教育经历等。这些信息来源于 Google 内部的知识图谱。
  2. 推荐系统:知道两个物品有相似的信息,那么可能具有相似的偏好人群。
  3. 问答系统:复合的长问题,需要通过知识图谱进行推理。

# 信息提取

在大数据时代,非结构化增长速度远远高于结构化数据的增长速度,因为结构化数据需要人工标注。信息提取 (information extraction) 即从非结构化数据中提取结构化信息的过程。

事件的抽取一般包括所对应的时间、地点、人物、事件等。抽取的手段一般包括:

  • name enity extraction: 命名实体抽取。相比于英文,中文的一个问题是分词。此外中文中的专有名词也不易识别。

在不同的 domain, information extraction 的任务不同。

# Knowledge for NLP

  • Linguistic knowledge
  • Commonsense knowledge
  • World knowledge