当前位置: 主页 > 国内要闻 >

写的流畅用GPT-4幻觉还少大模型总结摘要靠谱吗?

发布者:xg111太平洋在线
来源:未知 日期:2023-09-24 08:50 浏览()

  修杀青之后数据集构,是措施了接下来就。来说详细,用 BART 和 T5 针对单条信息职分本文采;gasus 和 BART多条信息职分采用 Pe;T 用于对话职分T5 和 BAR;5 和 MBART 跨发言职分运用 MT; Codet5 源代码职分运用。

  验中实,对比区别摘要的合座质地该商讨聘任人类评估员来。 1 所示结果如图,于人为天生的摘要和微调模子天生的摘要LLM 天生的摘要正在全体职分中永远优。

   LLM 天生摘要句子中的幻觉题目本文进一步招募评释者来识别人类和, 1 所示结果如表, 天生的摘要比拟与 GPT-4,一样或更高数目的幻觉人为书写的摘要表示出。摘要等特定职分中正在多条信息和代码,显著较差的底细划一性人为编写的摘要表示出。

  摘要文本,NLG)中的一项职分行为天然发言天生(,文本压缩为简短的摘要合键用来将一大段长,发言文本等多种实质都能用到比方信息作品、源代码和跨。

  LLM 可能胜过人类撰写的摘要这就提出了一个题目:为什么 ,些摘假若完善完全的而古板上人们以为这。表此,的窥察剖明始末开始,出高度的通畅性和连贯性LLM 天生的摘要表示。

  要往往拥有固定且厉刻的长度本文还觉察微调模子天生的摘,输入音信调度输出长度而 LLM 可能按照。表此,多个中央时当输入包罗,对中央的笼盖率较低贱调模子天生的摘要,3 所示如图 ,要时可能拘捕全体中央而 LLM 正在天生摘:

  条信息和对话摘要职分时比方正在施行单条信息、多,l 、Multi-News 运用的数据集构修措施本文采用的措施模仿了 CNN/DailyMai。言摘要职分关于跨语,等人提出的措施划一其战略与 Zhu 。摘要职分合于代码,mi 等人提出的措施本文采用 Bahra。

  微调模子天生的摘要实行定量和定性的对比后觉察正在对 LLM 天生的摘要、人为撰写的摘要和,显著受到人类评估者的青睐由 LLM 天生的摘要。

  4 可得由图 ,好分数胜过 50%人类对大模子的偏,要有热烈的偏好剖明人们对其摘,正在文本摘要方面的能并凸显了 LLM 力

  考摘要存正在如此一个题目本文还觉察人为编写的参,通畅性即缺乏。(a) 所示如图 2 ,时存正在音信不完美的缺陷人为编写的参考摘要有。 (b) 中而且正在图 2写的流畅用GPT-4幻觉还少,参考摘要会展现幻觉少许由人为编写的。

   COLING 上的 100 篇与摘要措施合联的论文实行抽样和反省后接着该商讨正在对过去 3 年颁发正在 ACL、EMNLP、NAACL 和,一种总结摘要措施并正在程序数据集上验证了其有用性他们觉察约莫 70% 的论文的合键奉献是提出了。此因,tion is (Almost) Dead )」本文暗示「摘要(简直)已死( Summariza。

  这一题目为了回复, is (Almost) Dead 》中实行了深远的探求来自北京大学的商讨者正在论文《 Summarization。务(单条信息、多条信息、对话太平洋在线xg111源代码和跨发言摘要)上的表示他们运用人类天生的评估数据集评估了 LLM 正在各类摘要任。

  如许只管,域依旧存正在寻事商讨者暗示该领大模型总结摘要靠谱吗?比人类,集、更正评估措施等还必要治理比方必要更高质地的参考数据。

分享到
推荐文章