# 知识图谱
现在还需要显式的 knowledge graph 吗?
知识图谱 (knowledge graph) 是一个描述实体及其关系的数据库。
数学推理应该是基于自然语言的,还是基于 lean 等结构化表述的?
# 知识图谱的历史
早期的知识图谱包括两个发展阶段:
- knowledge to data: 将知识使用数据存储。从引文索引中检索文献,是知识图谱最早期的研究。进而研究用文献之间的引证关系,研究知识发展的脉络。
- symbolic logic: 符号逻辑
- semantic network: 语义网络
- expert system: 专家系统
- Eg: Japanese 5th Generation Project, PROLOG
- knowledge engineering: 知识工程
- data to knowledge: 从数据中提取知识
- The Web 1.0: World Wide Web
- semantic web: 语义网。希望将互联网数据化,网站间通过 relation 连接。这样可以将需要推理的知识转化为计算机可以理解的形式。
- The Web 2.0: Collective Intelligence
- Open and distributed data
- Collective knowledge engineering: Wikipedia
- Google Knowledge Graph
# 当前的知识图谱
- Open Knowledge Graphs
- DBpedia
- YAGO
- Freebase
- Wikidata
- Enterprise Knowledge Graphs
- Google Knowledge Graph
- Amazon, Uber, etc.
# 结构化知识
莎士比亚写了《罗密欧与朱丽叶》。可以转化成一个三元组:
- 头实体:莎士比亚
- 关系:写了
- 尾实体:罗密欧与朱丽叶
结构化的知识组成一个有向图,图中的节点是实体,图中的边描述节点间的关系。
# 知识图谱上的推理任务
- 预测链路
- 预测实体
- 预测属性
# 应用
- 搜索引擎:在 Google 搜索人名时,会出现这个人的简介,包括工作、教育经历等。这些信息来源于 Google 内部的知识图谱。
- 推荐系统:知道两个物品有相似的信息,那么可能具有相似的偏好人群。
- 问答系统:复合的长问题,需要通过知识图谱进行推理。
# 信息提取
在大数据时代,非结构化增长速度远远高于结构化数据的增长速度,因为结构化数据需要人工标注。信息提取 (information extraction) 即从非结构化数据中提取结构化信息的过程。
事件的抽取一般包括所对应的时间、地点、人物、事件等。抽取的手段一般包括:
- name enity extraction: 命名实体抽取。相比于英文,中文的一个问题是分词。此外中文中的专有名词也不易识别。
在不同的 domain, information extraction 的任务不同。
# Knowledge for NLP
- Linguistic knowledge
- Commonsense knowledge
- World knowledge