# 知识图谱

现在还需要显式的 knowledge graph 吗？

知识图谱 (knowledge graph) 是一个描述实体及其关系的数据库。

数学推理应该是基于自然语言的，还是基于 lean 等结构化表述的？

# 知识图谱的历史

早期的知识图谱包括两个发展阶段：

knowledge to data: 将知识使用数据存储。从引文索引中检索文献，是知识图谱最早期的研究。进而研究用文献之间的引证关系，研究知识发展的脉络。
- symbolic logic: 符号逻辑
- semantic network: 语义网络
- expert system: 专家系统
  - Eg: Japanese 5th Generation Project, PROLOG
- knowledge engineering: 知识工程
data to knowledge: 从数据中提取知识
- The Web 1.0: World Wide Web
- semantic web: 语义网。希望将互联网数据化，网站间通过 relation 连接。这样可以将需要推理的知识转化为计算机可以理解的形式。
- The Web 2.0: Collective Intelligence
  - Open and distributed data
  - Collective knowledge engineering: Wikipedia
- Google Knowledge Graph

# 当前的知识图谱

Open Knowledge Graphs
- DBpedia
- YAGO
- Freebase
- Wikidata
Enterprise Knowledge Graphs
- Google Knowledge Graph
- Amazon, Uber, etc.

# 结构化知识

莎士比亚写了《罗密欧与朱丽叶》。可以转化成一个三元组：

头实体：莎士比亚
关系：写了
尾实体：罗密欧与朱丽叶

结构化的知识组成一个有向图，图中的节点是实体，图中的边描述节点间的关系。

# 知识图谱上的推理任务

预测链路
预测实体
预测属性

# 应用

搜索引擎：在 Google 搜索人名时，会出现这个人的简介，包括工作、教育经历等。这些信息来源于 Google 内部的知识图谱。
推荐系统：知道两个物品有相似的信息，那么可能具有相似的偏好人群。
问答系统：复合的长问题，需要通过知识图谱进行推理。

# 信息提取

在大数据时代，非结构化增长速度远远高于结构化数据的增长速度，因为结构化数据需要人工标注。信息提取 (information extraction) 即从非结构化数据中提取结构化信息的过程。

事件的抽取一般包括所对应的时间、地点、人物、事件等。抽取的手段一般包括：

name enity extraction: 命名实体抽取。相比于英文，中文的一个问题是分词。此外中文中的专有名词也不易识别。

在不同的 domain, information extraction 的任务不同。

# Knowledge for NLP

Linguistic knowledge
Commonsense knowledge
World knowledge