tech share
  • tech-share
  • Engineering
    • 登录鉴权
    • SSR 页面路由
    • npm 版本号
    • 缓存
    • 数据库容灾
    • 动态效果导出 gif
    • Chrome-devtools
    • C 端 H5 性能优化
    • Docker
    • Monorepo 最佳实践
    • 技术架构演化
    • 项目规范最佳实践
    • snowpack
    • 静态资源重试
    • 前端页面渲染分析
    • Git
    • 前端重构
    • 微前端
    • 项目依赖分析
    • 前端监控原理
    • webpack
    • BS 架构与 CS 架构
    • HTTPS
    • package-lock.json 生成逻辑
    • SVN(Subversion)
    • 数据库分类
    • gulp
    • 前端架构
    • Bundle & Bundless
    • 控制反转 IoC
  • JavaScript
    • Javascript 性能
    • JavaScript 原型(2) - 原型与原型链
    • JavaScript 原型(1) - 构造函数
    • JavaScript - Promise
    • ES6 解构赋值
    • 前端离线化
    • Proxy
    • Object.defineProperty()简介
    • TypeScript
  • MachineLearning
    • GAN生成对抗网络
    • 虚拟对抗训练
    • 深度度量学习
    • 原型网络
    • PyTorch优化器
    • 隐马尔可夫模型2
    • Shapley Value 算法
    • Embarassingly Autoencoder算法
    • AutoRec算法及其后续发展
    • 深度学习常用激活函数
    • 序列预测ConvTran算法
    • 联邦学习
    • 深度学习推荐系统算法整理
    • 隐马尔可夫模型
    • 黎曼优化方法
    • FM算法
    • 机器学习常见评价指标
    • VAE算法
    • Adam优化器详解
    • Transformer算法
    • Self-attention 推荐算法
    • CNN 卷积神经网络
    • 图嵌入
    • 集成学习算法
    • RecBole开源框架
    • NCE-PLRec
    • 深度学习初始化方法
    • RNN循环神经网络
    • PyTorch数据处理
    • PyTorch安装和基本操作
    • XGBoost算法
    • NCF算法与简单MF的对比
    • 计算最佳传输
  • CSS
    • 什么是BFC
    • 纯CSS实现可拖动布局
    • 滚动穿透解决方案
  • React
    • React 生命周期
    • React Ref
    • React Hooks
    • SWR
    • React 数据流
    • React 函数式组件和类组件的区别
  • 可视化
    • OffscreenCanvas
    • Echarts 平滑曲线端点为什么不平滑
    • 颜色空间
    • 词云布局解析
    • 3D 数学基础
    • Canvas 图片处理
    • GLGL ES
    • WebGL 中绘制直线
    • Graphics API
    • 现代计算机图形学基础
    • Canvas 灰度
  • Vue
    • Vue2.x全局挂载整理
    • Vue2.6.x源码阅读
      • Vue2.6.x源码阅读 - 2.目录结构分析
      • Vue2.6.x源码阅读 - 4.源码阅读-platform
      • Vue2.6.x源码阅读 - 1.准备工作
      • Vue2.6.x源码阅读 - 5.源码阅读-core-Vue构造函数
      • Vue2.6.x源码阅读 - 7.源码阅读-core-响应式原理
      • Vue2.6.x源码阅读 - 3.源码阅读-shared
      • Vue2.6.x源码阅读 - 6.源码阅读-core-组件挂载
    • Vue + TypeScript Web应用实践
    • Vue2.x指令
    • nextTick()的使用
    • vue-cli2.x 的使用与项目结构分析
    • Vue响应式原理及总结
    • VueX的使用
    • Electron-Vue + Python 桌面应用实践
    • Vite
    • Vue组件通信整理
    • 记录一个问题的探索过程
  • Linux
    • memcg
  • GameDev
    • 游戏中的几种投影视图
    • 从零开始写软渲染器06
    • 从零开始写软渲染器05
    • 从零开始写软渲染器04
    • 从零开始写软渲染器03
    • 从零开始写软渲染器02
    • 从零开始写软渲染器01
    • 从零开始写软渲染器00
    • 现代游戏常用的几种寻路方案(一)
  • Node
    • NPM Dependency
    • Node 优势
    • Node Stream
    • Node 模块系统
  • HTML
    • html5语义与结构元素
  • 跨端
    • Flutter 介绍
  • Golang
    • Golang 基础
  • AR
    • SceneKit
由 GitBook 提供支持
在本页
  • Transformer算法的问题
  • 局域性问题的解决
  • 内存瓶颈的解决

这有帮助吗?

  1. MachineLearning

序列预测ConvTran算法

上一页深度学习常用激活函数下一页联邦学习

最后更新于4年前

这有帮助吗?

我们在很早之前介绍过Transformer算法,该算法使用self-attention机制作为rnn替代进行时序信息的编码。但是Transformer的提出主要是在自然语言处理领域,应对的大部分是长度较短的对话语句。

面对时序预测问题中的较长序列时Transformer往往会遭遇内存瓶颈,同时也难以强化局部性依赖。这次介绍的CovTran算法提出了一种同时解决内存瓶颈并提高影响力的局域性的表示能力的算法框架。

Transformer算法的问题

众所周知Transformer中self-attention机制的最大优势在于可以便于发现序列数据中每个时刻之间影响力的权重,并且通过矩阵运算就可以得到这个结果,从而可以在GPU上进行高度的并行化运算提高运算效率。

然而这样的处理方式在长序列预测中存在两个主要问题

  1. 长序列预测中的长程依赖出现概率较小,反而是近期的数据对预测结果的影响力较大,Transformer无法表示这种局部集中性。

  2. Transformer通过以下的Attention函数来执行运算:

    • Attention(Q, K, V) = softmax( sim(Q, K) ) V

      空间复杂度为O(n^2)。因此序列越长,所需内存空间越大,很容易遇到内存的瓶颈。

ConvTran算法来自于2019年NIPS的论文:

该论文主要贡献就是将Transformer应用到了较长序列的预测上,同时解决了上述两个问题。

局域性问题的解决

在时序预测领域,为了降低输入数据的维度,除了使用RNN处理数据外,也常常会用到CNN对长序列做一维的卷积以找到其中的局部关联性信息。

由于时序预测场景中只能进行从前到后单向的预测,因此使用的是因果卷积方法,如图所示。

此处使用因果卷积的巧妙之处在于将Attention中计算Query和Key值的矩阵运算过程视作卷积核大小为1的一维卷积操作。如左图所示是一般的Attention操作,右图则表示在卷积核大小大于1的情况下按照窗口提取Query和Key。

在此操作下,空间复杂度随着卷积核大小的增加而显著减小。同时卷积操作为模型提取了局部信息。

内存瓶颈的解决

针对这种内存瓶颈问题,文章提出LogSparse self-attention结构,这个结构的有效性基于一种假设:依赖的出现概率随时间跨度的大小呈指数级下降。

相较于完整self-attention机制会考虑所有过去时刻到当前时刻的attention,LogSparseself-attention机制只考虑指数位置到当前时刻的attention。

例如,以2作为底数的LogSparseself-attention机制只考虑距离当前时刻1、2、4、8、16...个时间步的时刻的attention。这样空间复杂度就由O(n^2)降低到了O(nlogn)。

为了满足时序预测中局域性影响力的强化,Local机制被附加到LogSparse上,即给予靠近当前时刻的一段时刻豁免权,然后从这个一小段时刻之外再开始执行LogSparse。

另一种机制则是将完整的时序划分成较短的子序列,然后在每个子序列的窗口内执行LogSparse,这种做法适用于不很稀疏的数据.这种数据保存了更多时刻的attention信息。

总之,这篇论文对Transformer的改进为Transformer和它核心的self-attention机制应用于长程序列中提供了实验依据,在推荐系统等领域也可以对此进行借鉴参考。

Enhancing the Locality and Breaking the Memory Bottleneck of Transformer on Time Series Forecasting
ConvTran_locality
LogSparse
Local LogSparse
restart LogSparse