今天是2024年4月12日,周五,北京,天气阴。
我们先来看看昨日大模型进展,主要涉及到对RAG的讨论、长文本进展、玄学大模型、因果推理、上下文层级增强RAG以及文档智能的一些进展。
另外,我们再来看看一个简单粗暴的视频生成的项目,实现思路可以借鉴,供大家一起参考。
我们还是先来看看几个大模型进展。
1、关于RAG进展Superposition Prompting
Superposition Prompting:改进和加速检索增强生成:《Superposition Prompting: Improving and Accelerating Retrieval-Augmented Generation》(https://arxiv.org/pdf/2404.06910)。
其大致思路比较简单,其认为提示中的无关上下文会降低输出质量。为了解决这些问题,提出了一种新颖的RAG提示方法,即超级叠加提示,可允许语言模型在并行提示路径中处理输入文档,一旦路径被视为无关,则丢弃该路径。使用MPT-7B指令微调模型进行的NaturalQuestions-Open数据集上,相对于朴素RAG,计算时间减少了93倍,同时准确性提高了43%:
2、关于玄学大模型Mistral Trismegistus 7B
满足对神秘学、灵性和超自然感兴趣群体的需求,一款专门针对玄学领域设计的AI大模型Mistral Trismegistus 7B被提出,可以应用于神秘学、占卜、炼金术、宗教等众多玄学主题的知识服务。
Huggingface模型下载:https://huggingface.co/teknium/Mistral-Trismegistus-7B
3、stanford发布2023年人工智能指数报告
斯坦福大学以人为本人工智能研究所(Stanford HAI)正式发布《2023 年人工智能指数报告》(Artificial Intelligence Index Report 2023),该报告分析了人工智能的影响和年度趋势:
地址:https://aiindex.stanford.edu/wp-content/uploads/2023/04/HAI_AI-Index-Report_2023.pdf
4、关于开源Infini-Transformer
Google发布下一代Transformer模型Infini-Transformer,特点下在于大模型处理无限长度的内容输入,而不增加内存和计算需求。
此外,OpenAI也发了一个轻量的评测repo,重点在于zero-shot, chain-of-thought能力:https://github.com/openai/simple-evals
地址:https://arxiv.org/pdf/2404.07143.pdf
5、 关于AI搜索的一些有趣的工作进展
用Elmo一键生成文章总结和分享卡片,收到大家关注,Elmo是基于LeptonAI的Chrome浏览器扩展,使用的是Mixtral8x7b模型,其无需登录、无需GPT/OpenAI账户。
地址:https://elmo.chat/
6、关于文档智能的一个有趣的产品
我们已经谈了多次关于文档智能的工作,而为了更好地理解其工作逻辑,最近的一个工作
地址:https://doc2x.noedgeai.com/
我们再来卡看:Open Chat Video Editor,地址:github.com/SCUTlihaoyu/open-chat-video-editor
作为一个开源的短视频生成和编辑工具,整体技术框架实现很简单,做的更多的是一种精巧的集成,项目实现技术架构图如下:
通过对短文本、网页链接、长视频作为输入,然后利用chatgpt\belle\alpaca\dolly等基础模型完成摘要、文案生成等prompt加工,并作为信息分别使用包括图像搜索方法、图像生成、图像搜素+生成在内的文生图逻辑,以及包括视频搜索、视频生成、视频搜索+视频生成在内的视频生成逻辑,最后利用语音合成等逻辑,生成短视频。
在实现上,该项目中主要利用到两个数据集,用于图像检索和视频检索,分别如下:
1)图像检索数据来源数据:LAION-5B
LAION-5B由58.5亿个图像文本组合组成,通过CLIP过滤的图像分类模型,其中23亿是图像-英文文本对,22亿是图像,超过100个是非英语文本对,其余10亿对是不限于特定语言的图像和文本对,例如名称。
地址:https://laion.ai/blog/laion-5b/
2)视频检索数据来源于:webvid-10m
WebVid-10M是一个大规模的短视频数据集,其文本描述来自于素材网站。这些视频种类繁多,内容丰富,包括10.7M的视频-说明对,总共52K个视频小时。
地址:https://m-bain.github.io/webvid-dataset/
在短句转短视频(Text2Video)实现上,短句转短视频,指的是根据输入的简短文字,生成短视频文案,并合成短视频;在具体实现上,以输入文案:【小孩子养宠物】为例, 首先,利用文本模型(如:chatgpt等),可以自动生成一个较长的短视频文案,然后拼接生成视频。
本文主要介绍了两个方面的工作,一个是几个有趣的大模型进展,回顾下昨日的大模型进展,另一个是开源的短视频生成和编辑工具Open Chat Video Editor项目,其实现很简单,但可以作为入门去看。
1、github.com/SCUTlihaoyu/open-chat-video-editor
老刘,刘焕勇,NLP开源爱好者与践行者,主页:https://liuhuanyong.github.io。
老刘说NLP,将定期发布语言资源、工程实践、技术总结等内容,欢迎关注。
对于想加入更优质的知识图谱、事件图谱、大模型AIGC实践、相关分享的,可关注公众号,在后台菜单栏中点击会员社区->会员入群加入。