夕小瑶科技说 原创
作者 | Richard
斯坦福发布了2024年AI指数报告,这是目前AI领域最全面、最权威的年度报告之一。这份报告详尽地记录和分析了AI技术的最新进展、公众对AI的看法、AI的地缘政治影响等多个方面。小编看后极为震撼。
报告内容很多,涵盖人工智能研发、教育、经济等领域,小编在这里为大家优中选优,从人工智能研发研发角度做汇总。
太长不看版:产业界主导前沿AI研究,基础模型与开源趋势显著,训练成本大幅增加。美国顶尖AI模型数量领先,中国专利全球占比超60%,印度竟然在AI竞争中异军突起。
接下来让我们看下详细内容。
论文链接:
https://arxiv.org/pdf/2405.19522
公众号「夕小瑶科技说」后台回复“AI指数报告”获取论文pdf。
AI专利数量猛增,2021至2022年全球AI专利授权量大幅增长62.7%,自2010年以来增长31倍之多。中国主导全球AI专利,2022年占全球61.1%,远超美国的20.9%。
自2010年以来,美国在全球AI专利中的份额从54.1%下降,而中国的份额则大幅提高。这凸显了中国在AI专利领域的领先优势,中国已成为全球AI专利的主要来源国。中国在AI专利数量上的优势与其在AI应用和产业化方面的快速进展密切相关。
随着人工智能的发展,GitHub项目的总量呈现出指数上升趋势。如下图所示,自2011年与人工智能相关的GitHub项目数量持续增长,从2011年的845个增长到2023年的约180万个。而且仅去年一年,GitHub项目中与人工智能相关的项目总数大幅增长了59.3%。
从地域的角度来看,截止2023年,GitHub人工智能项目的很大一部分来自于美国,占比为22.9%。印度竟然成为第二大贡献国,占比19%,远超中国的3.04%。从图中可以看出从2019年开始,中国在GitHub开源项目中的占比逐年下降,而印度的开源项目占比总体上呈现出上升的趋势,这一现象的背后原因较为复杂。总之中国在开源方面还需要继续发力。
美国以61个顶尖模型的数量遥遥领先欧盟(25个)、中国(15个)和英国。
下图是2023年各国家和地区发布的著名机器学习模型数量比较。从下图可以看出美国以61个模型遥遥领先,其次是中国的15个、法国的8个和德国的5个。加拿大、以色列和英国并列第四,各有4个模型。新加坡和阿联酋分别有3个模型,埃及有2个模型。值得注意的是,欧盟和英国合计的模型数量首次超过了中国。自2003年以来,美国一直是发布机器学习模型最多的国家,领先于英国、中国和加拿大等其他主要地区。
美国的模型数量一直稳步上升,在2023年达到61个的顶峰。中国的模型数量增长较为平缓,在2023年达到15个。欧盟和英国的模型数量在2021年后实现了快速增长,在2023年合计达到25个,超过了中国。尽管中国在顶尖AI模型数量上落后于美国,但其表现仍优于欧盟和英国,反映出中国在前沿AI研究领域的重要地位。
产业界主导了前沿人工智能研究,2023年产生51个重要机器学习模型,学术界只贡献了15个,产学合作达到新高。
在2014年之前,学术界在发布机器学习模型方面一直处于领先地位。而在2014年之后,产业界开始领跑,直到2023年,产业界发布了51个著名的机器学习模型,而学术界仅仅发布了15个。而在产业界发布的51个模型中有21个机器学习模型是由产业界和学术界合作产生的。
目前创建尖端人工智能模型需要大量的数据、计算能力和财政资源,这些都是学术界所不具备的。尽管今年的差距略有缩小,但这一趋势在很大程度上依然存在。
下图展示了从2003年到2023年期间机器学习模型的参数数量变化趋势。图中的点代表不同机构在不同时间发布的著名机器学习模型的参数数量,按照模型所属的领域(学术界、工业界、产学研合作、政府机构和研究联盟)进行了分类。
总体趋势是:随着时间的推移机器学习模型的参数数量呈指数级增长,从2003年的几百个参数增长到2023年的上百亿个参数。这反映出随着人工智能技术的进步,机器学习模型变得越来越复杂,对计算资源的需求也越来越大。
不同领域对比来看,工业界发布的模型参数数量普遍高于学术界,尤其是从2018年开始,像OpenAI、Anthropic和Google这样的公司发布的大模型的参数数量远超学术界模型。这突显出工业界在计算资源和数据规模上的优势。产学研合作模型的参数数量也高于单纯的学术界模型。
图中还提到训练数据规模越大的模型通常参数数量也越多,参数数量更多的模型在性能上通常优于参数数量少的模型。大模型在工业界尤为引人注目,体现了企业在承担大规模模型训练计算成本方面的实力。
虽然人工智能公司很少透露训练模型所需的费用。但人们普遍认为,训练大模型的成本高达数百万美元,而且还在不断上涨。而且还在增加。例如OpenAI的首席执行官萨姆-奥特曼(Sam Altman)曾经提到,GPT-4的训练成本超过了1亿美元。而Google的Gemini Ultra为1.91亿美元。
中国虽然在人工智能研发方面硕果累累,例如中国AI专利数量遥遥领先其他国家、中国是大模型第二大贡献国,这与国内一大批人工智能教育者和从业者息息相关。无论是学术界还是工业界,都为中国的人工智能发展贡献自己的力量。
尽管中国在人工智能领域取得了长足进步,但我们也要清醒地认识到,与美国等AI强国相比,中国在人工智能研发方面仍存在诸多不足和差距。一个突出的例子是,中国目前还缺乏真正具有全球影响力的大语言模型。相比于OpenAI的GPT系列、Google的Gemini系列、Meta的Llama系列等在学术界和产业界广受关注的大模型,中国自主研发的大模型在规模、性能和应用广度上还有待提升。
此外,在开源社区的贡献方面,中国也显著落后于美国、欧洲等地区。中国在GitHub上的开源项目数量甚至不及印度等发展中国家。这一现象反映出中国在人工智能领域的开放创新和国际合作方面还有很大的提升空间。造成这些差距的原因是多方面的,既有技术积累和创新环境的限制,也有知识产权保护和人才培养机制的影响。
尽管如此,我们仍然要看到中国在人工智能领域已经具备了一定的基础和潜力。随着国家对人工智能研发的重视和投入不断加大,以及人工智能企业的快速成长,中国有望在未来逐步缩小与全球领先水平的差距。但这需要产学研各界的共同努力,在基础研究、应用创新、人才培养、开放合作等方面持续发力,推动中国人工智能的健康发展。