玄学大模型、Google Infini-Transformer新版大模型架构:有趣的大模型进展早报及短视频生成简单项目

今天是2024年4月12日,周五,北京,天气阴。

我们先来看看昨日大模型进展,主要涉及到对RAG的讨论、长文本进展、玄学大模型、因果推理、上下文层级增强RAG以及文档智能的一些进展。

另外,我们再来看看一个简单粗暴的视频生成的项目,实现思路可以借鉴,供大家一起参考。

一、先从几个有趣的大模型进展说起

我们还是先来看看几个大模型进展。

1、关于RAG进展Superposition Prompting

Superposition Prompting:改进和加速检索增强生成:《Superposition Prompting: Improving and Accelerating Retrieval-Augmented Generation》(https://arxiv.org/pdf/2404.06910)。

其大致思路比较简单,其认为提示中的无关上下文会降低输出质量。为了解决这些问题,提出了一种新颖的RAG提示方法,即超级叠加提示,可允许语言模型在并行提示路径中处理输入文档,一旦路径被视为无关,则丢弃该路径。使用MPT-7B指令微调模型进行的NaturalQuestions-Open数据集上,相对于朴素RAG,计算时间减少了93倍,同时准确性提高了43%:

2、关于玄学大模型Mistral Trismegistus 7B

满足对神秘学、灵性和超自然感兴趣群体的需求,一款专门针对玄学领域设计的AI大模型Mistral Trismegistus 7B被提出,可以应用于神秘学、占卜、炼金术、宗教等众多玄学主题的知识服务。

Huggingface模型下载:https://huggingface.co/teknium/Mistral-Trismegistus-7B

3、stanford发布2023年人工智能指数报告

斯坦福大学以人为本人工智能研究所(Stanford HAI)正式发布《2023 年人工智能指数报告》(Artificial Intelligence Index Report 2023),该报告分析了人工智能的影响和年度趋势:

地址:https://aiindex.stanford.edu/wp-content/uploads/2023/04/HAI_AI-Index-Report_2023.pdf

4、关于开源Infini-Transformer

Google发布下一代Transformer模型Infini-Transformer,特点下在于大模型处理无限长度的内容输入,而不增加内存和计算需求。

此外,OpenAI也发了一个轻量的评测repo,重点在于zero-shot, chain-of-thought能力:https://github.com/openai/simple-evals

地址:https://arxiv.org/pdf/2404.07143.pdf

5、 关于AI搜索的一些有趣的工作进展

用Elmo一键生成文章总结和分享卡片,收到大家关注,Elmo是基于LeptonAI的Chrome浏览器扩展,使用的是Mixtral8x7b模型,其无需登录、无需GPT/OpenAI账户。

地址:https://elmo.chat/

6、关于文档智能的一个有趣的产品

我们已经谈了多次关于文档智能的工作,而为了更好地理解其工作逻辑,最近的一个工作

地址:https://doc2x.noedgeai.com/

二、开源的短视频生成和编辑工具Open Chat Video Editor

我们再来卡看:Open Chat Video Editor,地址:github.com/SCUTlihaoyu/open-chat-video-editor

作为一个开源的短视频生成和编辑工具,整体技术框架实现很简单,做的更多的是一种精巧的集成,项目实现技术架构图如下:

通过对短文本、网页链接、长视频作为输入,然后利用chatgpt\belle\alpaca\dolly等基础模型完成摘要、文案生成等prompt加工,并作为信息分别使用包括图像搜索方法、图像生成、图像搜素+生成在内的文生图逻辑,以及包括视频搜索、视频生成、视频搜索+视频生成在内的视频生成逻辑,最后利用语音合成等逻辑,生成短视频。

在实现上,该项目中主要利用到两个数据集,用于图像检索和视频检索,分别如下:

1)图像检索数据来源数据:LAION-5B

LAION-5B由58.5亿个图像文本组合组成,通过CLIP过滤的图像分类模型,其中23亿是图像-英文文本对,22亿是图像,超过100个是非英语文本对,其余10亿对是不限于特定语言的图像和文本对,例如名称。

地址:https://laion.ai/blog/laion-5b/

2)视频检索数据来源于:webvid-10m

WebVid-10M是一个大规模的短视频数据集,其文本描述来自于素材网站。这些视频种类繁多,内容丰富,包括10.7M的视频-说明对,总共52K个视频小时。

地址:https://m-bain.github.io/webvid-dataset/

在短句转短视频(Text2Video)实现上,短句转短视频,指的是根据输入的简短文字,生成短视频文案,并合成短视频;在具体实现上,以输入文案:【小孩子养宠物】为例, 首先,利用文本模型(如:chatgpt等),可以自动生成一个较长的短视频文案,然后拼接生成视频。

总结

本文主要介绍了两个方面的工作,一个是几个有趣的大模型进展,回顾下昨日的大模型进展,另一个是开源的短视频生成和编辑工具Open Chat Video Editor项目,其实现很简单,但可以作为入门去看。

参考文献

1、github.com/SCUTlihaoyu/open-chat-video-editor

关于我们

老刘,刘焕勇,NLP开源爱好者与践行者,主页:https://liuhuanyong.github.io。

老刘说NLP,将定期发布语言资源、工程实践、技术总结等内容,欢迎关注。

对于想加入更优质的知识图谱、事件图谱、大模型AIGC实践、相关分享的,可关注公众号,在后台菜单栏中点击会员社区->会员入群加入。


相关推荐

  • 来,吃个回旋瓜。。。
  • Nature发布2024年值得关注的七项技术
  • 重磅:2024年QS世界大学学科排名出炉!
  • 面试官常问的那些webpack插件-超详细总结
  • 字节跳动 23 人移送公安机关,开除 136 人!
  • 我成功复刻了安卓 6 的彩蛋!
  • 我做了个代码生成器平台,一键生成项目~
  • 裁员大潮!今年少跳槽,别离职。
  • 阿里大变!退休五年,马云首次发内部信
  • 深信服反腐:开除 42 人、1 人被刑事立案
  • 使用 Transformers 进行概率时间序列预测实战
  • 李彦宏:百度绝不抢开发者饭碗;苹果回应 iPhone「零件序列化」争议 | 极客头条
  • “App 日赚 1050 万美元”,苹果紧急提醒:这可能是系统 Bug!
  • 由Google、OPPO、ARM、华为等大厂程序员贡献的Linux Large Folios大页在社区和产品的现状和未来
  • 大模型浪潮下软件研发如何变革?听听微软、阿里、百度等宝贵实践
  • 用GitHub备份Markdown文档,Git简介
  • 雷军做程序员时写的博客,太牛了!
  • 一款简单、好用的 Web 应用防火墙
  • 前端未死,只是换了新样貌!!!
  • 给大家分享一个阅读Github项目代码的小技巧~