2024,Transformer 王者归来!

2017年,来自谷歌的几个研究员写下《Attention is All you need》的题目,给世界带来了Transformer模型架构,它成为了今天“大模型”繁荣背后无可争议的根基。   

OpenAI的GPT,Meta的Llama以及一众最主流大语言模型都是在Transformer的基础上生长起来,某种程度上,今天所有AI模型层面的研究都在围绕对Transformer的掌控与超越展开。

如何快速发一篇这一领域的论文呢,我给大家整理了135篇Transformer魔改方案论文,包括最新的idea顶会等,希望对大家的学习有多帮助。

扫码回复"transformer"

领取135篇魔改论文合集


另外我还邀请了常年担任NeurIPS,ICML,ICLR,KDD,IJCAI等国际会议审稿人一林老师在4月17日晚20:00给大家带来《Graph Transformer for GraphRepresentation Learning》


直播大纲:


1.图表示学习

2. Graph Transformer

  • Transformer简介

  • Graph Transformer简介

  • Graph Transformer经典模型之Graphormer (NeurlPS 2021)

  • Graph Transformer经典模型之NAGphormer (ICLR 2023)

3.Graph Transformer的末来方向


另外还邀请多位顶会大咖,做了最全Transformer系列课程,带你吃透理论和代码,了解未来应用,扫清学习难点。本次课程有两大亮点:


亮点一:精讲论文+代码

亮点二:详解Transformer的多方向应用


论文+代码

多方向应用

精讲VIT、PVT、Swin Transformer、DETR论文和代码,扎实理论+吃透代码。

详解预训练语言模型应用/基于VIT的语义分割算法/在视觉任务中的应用与高效部署。

0.01元解锁Transfoemer系列课

带你吃透理论和代码

加课程回复“Transformer"获取360篇transform顶会论文合集


Transtormer系列课程目录


阶段一:吃透论文和代码,牢牢掌握Transformer基础

1:CV-transformer 概述

2:CV-transformer VIT论文讲解

3:CV-transformer PVT论文详解

4:CV-transformer PVT代码详解

5:CV-transformer Swin Transformer论文详解

6:CV-transformer Swin Transformer代码详解

7:CV-transformer DETR 论文详解

8:CV-transformer DETR代码讲解

9:CV-transformer——VIT

10:CV-transformer——MAE

11:CV中的transformer专题MAE详解


阶段二:掌握Transformer多方向应用

1:Transformer简介和预训练语言模型应用

2:基于Vision Transformer的语义分割算法

3:Transformer在视觉任务中的应用与高效部署

  • ViT为的主图像分类网络

  • Segformer为主的图像分割网络

  • 常用轻量化方法介绍

  • 以Transformer为主的视觉任务设计高效的轻量化方法

  • 未来挑战与研究方向



0.01元解锁22节系列课

带你吃透理论和代码



Transtormer系列论文


另外我还整理了通用ViT、高效ViT、训练transformer、卷积transformer等细分领域226篇顶会论文,带你从「Transformer的前世」速通到大模型。


论文目录:(因篇幅有限,仅展示前十篇)

1. Neural Machine Translation by Jointly Learning to Align and Translate(2014)

2. Attention is All you need (2017)

3. On Layer Normalization in the Transformer Architecture (2020)

4. Universal Language Model Fine-tuning for Text Classification (2018)

5. Harnessing the Power of LLMs in Practice (2023)

6. Cramming: Training a Language Model on a Single GPU in One Day (2022)

7. LoRA: Low-Rank Adaptation of Large Language Models (2021)

8. Training Compute-Optimal Large Language Models (2022)

9. Constitutional AI: Harmlessness from AI Feedback (2022)

10. Pythia: A Suite for Analyzing Large Language Models Across Training and Scaling (2023)

扫码回复“Transformer"获取226篇transform顶会论文合集

带你从「Transformer的前世」速通到大模型


相关推荐

  • 稀疏算力暴涨591%!Meta推出5nm AI训练芯片,自研AI芯片盛世来了
  • 法国版OpenAI杀疯了!1760亿参数MoE登开源榜首,3张A100显卡可跑,杨立昆转发“逆天”评论
  • 倒计时26天!天玑开发者大会启动报名,AI和游戏开发者的年度盛宴来了
  • 前端开发的利器,使用Whistle提升开发幸福感
  • 2024 年让我想疯狂学习的几个框架。。
  • “洗牌”开始了,很严重,大家提前做好准备吧!
  • JMH + Arthas,性能监控的神器
  • 揭秘数据指标设计的奥妙!
  • 用微前端 qiankun 接入十几个子应用后,我遇到了这些问题
  • 聊聊马云的公开信
  • 看完就懂的Hybrid框架设计方案
  • 超火前端工具库 Radash,声称要取代 Lodash
  • 通过 atexit 模块让 Python 实现 Golang 的 defer 功能
  • 阿里P9的一些思考
  • 面试官:说一下Redis中有哪些阻塞点以及如何解决?
  • 面试官: 美团外卖的分库分表怎么设计?
  • 22年北京买房子430万,首付190,月供17000,今年房子320万,亏了110,基本这几年白干,压根不敢离职,啥工作都得干。
  • 大模型做时序预测也很强!华人团队激活LLM新能力,超越一众传统模型实现SOTA
  • “梗王”大模型,靠讲笑话登上CVPR | 中山大学
  • 刚刚,图灵奖揭晓!史上首位数学和计算机最高奖“双料王”出现了