Python知识分享网 - 专业的Python学习网站 学Python,上Python222
benchmark 分析 PDF 下载
匿名网友发布于:2026-01-25 09:58:07
(侵权举报)
(假如点击没反应,多刷新两次就OK!)

benchmark 分析 PDF 下载 图1

 

资料内容:

 

 

 
当前数据集缺陷
 
当前多模态数据集主要分为3类:
1. ⻚⾯级:以⽂档名作为⽂件夹命名、每⼀⻚的⽂件内容以图⽚形式提供,按⻚码排序,问答对以
23
parquet形式提供
2. 块级:
a. 提供pdf⽂档源⽂件、问答对json(包含问题、答案、引⽤的块,块通过layout划分并建⽴索
引)
b. 分别提供图⽚、图表、⽂本三部分内容,三种模态分属同⼀主题的不同内容,并⽆强相关性
第⼀类:以图⽚形式提供的⻚⾯级数据集,往往内容形式丰富,且保留了模态间的布局关系,但是主要
⽤于将多模态统⼀到图⽚模态进⾏检索的rag,并不是真正的多模态
第⼆类:以pdf源⽂件+json形式提供的数据集,为了便于通过layout划分块并建⽴顺序索引,往往采⽤结
构⽐较固定的⽂档(wiki、学术论⽂),且json中以list列表依赖的块,丢失了块之间的布局、位置关系
等信息
第三类:将三种模态分开提供的数据集,⽆模态数据间的布局、语义等关联关系