主文献阅读(3):二阶优化算法和双层优化算法
# 优化算法的分类 零阶优化:只使用函数 f(x)f(x)f(x) 本身 遗传算法 贝叶斯优化 一阶优化:使用函数 f(x)f(x)f(x) 和其梯度 ∇f(x)\nabla f(x)∇f(x) 梯度下降算法 随机梯度下降算法 二阶优化:使用函数 f(x)f(x)f(x)、其梯度 ∇f(x)\nabla f(x)∇f(x) 和其 Hessian 矩阵 ∇2f(x)\nabla^2 f(x)∇2f(x) 牛顿法 拟牛顿法 # 牛顿法 二阶泰勒展开如下: f(xk+dk)=f(xk)+∇f(xk)Tdk+12dT∇2f(xk)dkf(\textbf{x}^k +...
more...未命名
传统分子动力学的缺点: 使用积分需要选择很小的 Δt\Delta tΔt. 从而导致计算量大和误差累积。 传统分子动力学是一个 Markov 过程。但是使用生成模型可以避免这个问题。 time-coarsened: 学习一个 τ≫Δt\tau \gg \Delta tτ≫Δt 的相关关系 P(Xt+τ∣Xt)P(X_{t+\tau}|X_t)P(Xt+τ∣Xt). 专用的 domain knowledge 不适合用来做 unified model. 小分子的通用模型直接用原子序数作为词表,这与蛋白质词表(氨基酸或者更细致使用 alpha 碳)不同。因此使用 unified model...
more...知识表示与推理(2):命名实体识别
# Application of NER # NER 的目的 NER 可以有助于下一步的具体任务,包括: natural language understanding—— 解决 “每个字都认识,但是合起来不认识” 的问题。 识别代词的指代关系,用来 entity linking relation extraction Web query understanding question answering cocreference resolution # Evaluation of NER 这里设计到一个 trade off: selected and...
more...主文献阅读(2):最优化算法
# Outline First-order optimization SGD and its variants # 机器学习回顾 A set of data: X={xn}n=1N⊂XX = \{x_n\}_{n=1}^N \subset \mathcal{X}X={xn}n=1N⊂X, optionally, with labels Y={y}n=1N⊂YY = \{y\}_{n=1}^N \subset \mathcal{Y}Y={y}n=1N⊂Y. A loss function L:Y×Y↦RL : \mathcal{Y} \times \mathcal{Y}...
more...