tech share
  • tech-share
  • Engineering
    • 登录鉴权
    • SSR 页面路由
    • npm 版本号
    • 缓存
    • 数据库容灾
    • 动态效果导出 gif
    • Chrome-devtools
    • C 端 H5 性能优化
    • Docker
    • Monorepo 最佳实践
    • 技术架构演化
    • 项目规范最佳实践
    • snowpack
    • 静态资源重试
    • 前端页面渲染分析
    • Git
    • 前端重构
    • 微前端
    • 项目依赖分析
    • 前端监控原理
    • webpack
    • BS 架构与 CS 架构
    • HTTPS
    • package-lock.json 生成逻辑
    • SVN(Subversion)
    • 数据库分类
    • gulp
    • 前端架构
    • Bundle & Bundless
    • 控制反转 IoC
  • JavaScript
    • Javascript 性能
    • JavaScript 原型(2) - 原型与原型链
    • JavaScript 原型(1) - 构造函数
    • JavaScript - Promise
    • ES6 解构赋值
    • 前端离线化
    • Proxy
    • Object.defineProperty()简介
    • TypeScript
  • MachineLearning
    • GAN生成对抗网络
    • 虚拟对抗训练
    • 深度度量学习
    • 原型网络
    • PyTorch优化器
    • 隐马尔可夫模型2
    • Shapley Value 算法
    • Embarassingly Autoencoder算法
    • AutoRec算法及其后续发展
    • 深度学习常用激活函数
    • 序列预测ConvTran算法
    • 联邦学习
    • 深度学习推荐系统算法整理
    • 隐马尔可夫模型
    • 黎曼优化方法
    • FM算法
    • 机器学习常见评价指标
    • VAE算法
    • Adam优化器详解
    • Transformer算法
    • Self-attention 推荐算法
    • CNN 卷积神经网络
    • 图嵌入
    • 集成学习算法
    • RecBole开源框架
    • NCE-PLRec
    • 深度学习初始化方法
    • RNN循环神经网络
    • PyTorch数据处理
    • PyTorch安装和基本操作
    • XGBoost算法
    • NCF算法与简单MF的对比
    • 计算最佳传输
  • CSS
    • 什么是BFC
    • 纯CSS实现可拖动布局
    • 滚动穿透解决方案
  • React
    • React 生命周期
    • React Ref
    • React Hooks
    • SWR
    • React 数据流
    • React 函数式组件和类组件的区别
  • 可视化
    • OffscreenCanvas
    • Echarts 平滑曲线端点为什么不平滑
    • 颜色空间
    • 词云布局解析
    • 3D 数学基础
    • Canvas 图片处理
    • GLGL ES
    • WebGL 中绘制直线
    • Graphics API
    • 现代计算机图形学基础
    • Canvas 灰度
  • Vue
    • Vue2.x全局挂载整理
    • Vue2.6.x源码阅读
      • Vue2.6.x源码阅读 - 2.目录结构分析
      • Vue2.6.x源码阅读 - 4.源码阅读-platform
      • Vue2.6.x源码阅读 - 1.准备工作
      • Vue2.6.x源码阅读 - 5.源码阅读-core-Vue构造函数
      • Vue2.6.x源码阅读 - 7.源码阅读-core-响应式原理
      • Vue2.6.x源码阅读 - 3.源码阅读-shared
      • Vue2.6.x源码阅读 - 6.源码阅读-core-组件挂载
    • Vue + TypeScript Web应用实践
    • Vue2.x指令
    • nextTick()的使用
    • vue-cli2.x 的使用与项目结构分析
    • Vue响应式原理及总结
    • VueX的使用
    • Electron-Vue + Python 桌面应用实践
    • Vite
    • Vue组件通信整理
    • 记录一个问题的探索过程
  • Linux
    • memcg
  • GameDev
    • 游戏中的几种投影视图
    • 从零开始写软渲染器06
    • 从零开始写软渲染器05
    • 从零开始写软渲染器04
    • 从零开始写软渲染器03
    • 从零开始写软渲染器02
    • 从零开始写软渲染器01
    • 从零开始写软渲染器00
    • 现代游戏常用的几种寻路方案(一)
  • Node
    • NPM Dependency
    • Node 优势
    • Node Stream
    • Node 模块系统
  • HTML
    • html5语义与结构元素
  • 跨端
    • Flutter 介绍
  • Golang
    • Golang 基础
  • AR
    • SceneKit
由 GitBook 提供支持
在本页
  • 黎曼流形的简单介绍
  • 基于黎曼流形的优化器
  • 代码实现

这有帮助吗?

  1. MachineLearning

黎曼优化方法

上一页隐马尔可夫模型下一页FM算法

最后更新于4年前

这有帮助吗?

在之前章节中,借助对pytorch中optim包的介绍,总结了很多种优化方法。例如最基本的SGD随机梯度下降以及带动量和适应机制的RMSPROP、Adam、AdaGrad等方法。

事实上这些优化方法在优化时都是默认将参数视作欧式空间中的点,这保证了参数具有欧式空间中的连续性,同时也满足欧式空间中距离、角度的性质。然而在数学领域,欧式空间是另一种更加一般性的空间,黎曼空间的特殊情况。因此不少研究开始尝试将欧式空间中的优化方法扩展到黎曼流形中,并由此产生了RSGD、RAdam等新的优化器。

Bonnabel在2013年提出RSGD,而ICLR2019论文Riemannian Adaptive Optimization Methods中将Riemannian manifold的设定扩展到了已有的其他适应性优化器中。

黎曼流形的简单介绍

由于非数学专业出身,笔者摘录ICLR2019论文中对相关知识的介绍。

黎曼流形(Riemmannian manifold)是一个(M, ρ)对。其中M表示一个流形,对于流形中的每一个点,都对应一个上切空间TxM, ρ表示一种黎曼度量(Riemannian metric),这个度量被定义为流形上切空间的点积。

黎曼度量决定了流形M上会有特定的距离函数。对于x,y∈M,我们可以将d(x, y)设置为等同于M中x和y之间的平滑路径长度的最小值,其中路径c的长度可以通过在对应的切线空间中积分其速度向量得到。

指数映射和对数映射指的是在M上的点x从切线空间到流形的映射函数。直觉上讲,这个指数映射将切线空间折叠到了流形上。指数映射的一大作用是,对于切线空间上的点v,expx(vt)可以表示从M上的点x出发按照方向v采取的最短路径。在欧式空间中,expx(v) = x + v

在欧式空间中,从点x前往y的转移向量就是直线距离。而在黎曼流形中,转移向量取决于从x点采取哪一条路径进行转移。

基于黎曼流形的优化器

简单来说就是用黎曼流形上的指数映射函数替换欧式空间中的加法函数。例如用RSGD替换SGD只需要将 x - αg 替换为expx(-αg)即可。其中exp映射可能有闭式解,如果没有则要用近似函数替代。

而对于适应性的优化器,往往会引入一些随时间变化的额外参数。例如Adam的参数更新公式中:

其中x表示参数,α是学习率,m和v分别是两个随着更新变化的额外参数。

在黎曼流形优化器中我们不能简单地直接用欧式空间的更新方法更新那些额外参数,这是因为这些额外参数

右侧表示的是Adam的优化方法,左侧则是RAdam的优化方法。可以看出在计算m时,没有直接用m_{t-1}计算m_t而是引入了一个额外的变量表示对于m_t-1从TxM到TyM的任意一条等轴侧线。

再如对于参数v,在计算g^2时,不能直接用欧式空间的点乘,而是应该调用黎曼流形的距离函数d,此处简写为||g_t^i||^2

文章中还对这些算法的收敛性进行了证明和研究,有兴趣可以参考原文。

代码实现

其中的优化器类已经被封装为torch.optim.sgd和torch.optim.Adam的子类,可以直接使用。

例如:

import geoopt.optim.RiemannianSGD
import geoopt.optim.RiemannianAdam

optimizer = RiemannianAdam(lr=0.01)

git中更加重要的是很多对于黎曼流形中映射、转移、点积等函数的实现,以及一些特殊的黎曼流形的实现,值得学习。笔者也是在学习过这些论文和代码后才意识到自己在数学领域的浅薄和不足。

比较幸运的是在开发过程中,有大佬实现了manifold相关优化器的pytorch实现,得以将数学比较差的程序员解放出来。链接为 install geoopt直接安装。

https://github.com/geoopt/geoopt,可以通过pip
Adam
RAdam