
资料内容:
当前数据集缺陷
当前多模态数据集主要分为3类:
1. ⻚⾯级:以⽂档名作为⽂件夹命名、每⼀⻚的⽂件内容以图⽚形式提供,按⻚码排序,问答对以
23
parquet形式提供
2. 块级:
a. 提供pdf⽂档源⽂件、问答对json(包含问题、答案、引⽤的块,块通过layout划分并建⽴索
引)
b. 分别提供图⽚、图表、⽂本三部分内容,三种模态分属同⼀主题的不同内容,并⽆强相关性
第⼀类:以图⽚形式提供的⻚⾯级数据集,往往内容形式丰富,且保留了模态间的布局关系,但是主要
⽤于将多模态统⼀到图⽚模态进⾏检索的rag,并不是真正的多模态
第⼆类:以pdf源⽂件+json形式提供的数据集,为了便于通过layout划分块并建⽴顺序索引,往往采⽤结
构⽐较固定的⽂档(wiki、学术论⽂),且json中以list列表依赖的块,丢失了块之间的布局、位置关系
等信息
第三类:将三种模态分开提供的数据集,⽆模态数据间的布局、语义等关联关系