「结果表明,与这些簇相关的不确定性(语义熵)比标准的基于单词的熵更能有效地估计第一个LLM的不确定性。这意味着即使第二个LLM的语义等价计算并不完美,但它仍然有帮助。」不过Karin Verspoor也指出,用一个LLM来评估一种基于LLM的方法似乎是在循环论证,而且可能有偏差。「但另一方面,我们确实能从中受到很多启发,这将有助于其他相关问题的研究,包括学术诚信和抄袭,使用LLM创建误导或捏造的内容」。
扫描二维码添加小助手微信
请备注:姓名-学校/公司-研究方向(如:小张-哈工大-对话系统)即可申请加入自然语言处理/Pytorch等技术交流群