玄学大模型、Google Infini-Transformer新版大模型架构：有趣的大模型进展早报及短视频生成简单项目

今天是2024年4月12日，周五，北京，天气阴。

我们先来看看昨日大模型进展，主要涉及到对RAG的讨论、长文本进展、玄学大模型、因果推理、上下文层级增强RAG以及文档智能的一些进展。

另外，我们再来看看一个简单粗暴的视频生成的项目，实现思路可以借鉴，供大家一起参考。

一、先从几个有趣的大模型进展说起

我们还是先来看看几个大模型进展。

1、关于RAG进展Superposition Prompting

Superposition Prompting：改进和加速检索增强生成：《Superposition Prompting: Improving and Accelerating Retrieval-Augmented Generation》(https://arxiv.org/pdf/2404.06910)。

其大致思路比较简单，其认为提示中的无关上下文会降低输出质量。为了解决这些问题，提出了一种新颖的RAG提示方法，即超级叠加提示，可允许语言模型在并行提示路径中处理输入文档，一旦路径被视为无关，则丢弃该路径。使用MPT-7B指令微调模型进行的NaturalQuestions-Open数据集上，相对于朴素RAG，计算时间减少了93倍，同时准确性提高了43%：

2、关于玄学大模型Mistral Trismegistus 7B

满足对神秘学、灵性和超自然感兴趣群体的需求，一款专门针对玄学领域设计的AI大模型Mistral Trismegistus 7B被提出，可以应用于神秘学、占卜、炼金术、宗教等众多玄学主题的知识服务。

Huggingface模型下载：https://huggingface.co/teknium/Mistral-Trismegistus-7B

3、stanford发布2023年人工智能指数报告

斯坦福大学以人为本人工智能研究所（Stanford HAI）正式发布《2023 年人工智能指数报告》（Artificial Intelligence Index Report 2023），该报告分析了人工智能的影响和年度趋势：

地址：https://aiindex.stanford.edu/wp-content/uploads/2023/04/HAI_AI-Index-Report_2023.pdf

4、关于开源Infini-Transformer

Google发布下一代Transformer模型Infini-Transformer，特点下在于大模型处理无限长度的内容输入，而不增加内存和计算需求。

此外，OpenAI也发了一个轻量的评测repo，重点在于zero-shot, chain-of-thought能力：https://github.com/openai/simple-evals

地址：https://arxiv.org/pdf/2404.07143.pdf

5、关于AI搜索的一些有趣的工作进展

用Elmo一键生成文章总结和分享卡片，收到大家关注，Elmo是基于LeptonAI的Chrome浏览器扩展，使用的是Mixtral8x7b模型，其无需登录、无需GPT/OpenAI账户。

地址：https://elmo.chat/

6、关于文档智能的一个有趣的产品

我们已经谈了多次关于文档智能的工作，而为了更好地理解其工作逻辑，最近的一个工作

地址：https://doc2x.noedgeai.com/

二、开源的短视频生成和编辑工具Open Chat Video Editor

我们再来卡看：Open Chat Video Editor，地址：github.com/SCUTlihaoyu/open-chat-video-editor

作为一个开源的短视频生成和编辑工具，整体技术框架实现很简单，做的更多的是一种精巧的集成，项目实现技术架构图如下：

通过对短文本、网页链接、长视频作为输入，然后利用chatgpt\belle\alpaca\dolly等基础模型完成摘要、文案生成等prompt加工，并作为信息分别使用包括图像搜索方法、图像生成、图像搜素+生成在内的文生图逻辑，以及包括视频搜索、视频生成、视频搜索+视频生成在内的视频生成逻辑，最后利用语音合成等逻辑，生成短视频。

在实现上，该项目中主要利用到两个数据集，用于图像检索和视频检索，分别如下：

1）图像检索数据来源数据:LAION-5B

LAION-5B由58.5亿个图像文本组合组成，通过CLIP过滤的图像分类模型，其中23亿是图像-英文文本对，22亿是图像，超过100个是非英语文本对，其余10亿对是不限于特定语言的图像和文本对，例如名称。

地址：https://laion.ai/blog/laion-5b/

2）视频检索数据来源于：webvid-10m

WebVid-10M是一个大规模的短视频数据集，其文本描述来自于素材网站。这些视频种类繁多，内容丰富，包括10.7M的视频-说明对，总共52K个视频小时。

地址：https://m-bain.github.io/webvid-dataset/

在短句转短视频（Text2Video）实现上，短句转短视频，指的是根据输入的简短文字，生成短视频文案，并合成短视频；在具体实现上，以输入文案：【小孩子养宠物】为例，首先，利用文本模型（如：chatgpt等），可以自动生成一个较长的短视频文案，然后拼接生成视频。

总结

本文主要介绍了两个方面的工作，一个是几个有趣的大模型进展，回顾下昨日的大模型进展，另一个是开源的短视频生成和编辑工具Open Chat Video Editor项目，其实现很简单，但可以作为入门去看。

参考文献

1、github.com/SCUTlihaoyu/open-chat-video-editor

关于我们

老刘，刘焕勇，NLP开源爱好者与践行者，主页：https://liuhuanyong.github.io。

老刘说NLP，将定期发布语言资源、工程实践、技术总结等内容，欢迎关注。

对于想加入更优质的知识图谱、事件图谱、大模型AIGC实践、相关分享的，可关注公众号，在后台菜单栏中点击会员社区->会员入群加入。

玄学大模型、Google Infini-Transformer新版大模型架构：有趣的大模型进展早报及短视频生成简单项目

一、先从几个有趣的大模型进展说起

二、开源的短视频生成和编辑工具Open Chat Video Editor

总结

参考文献

关于我们

相关推荐