对于demo中的VisRAG,正常的理解是不是应该是这样的: 普通的RAG输出只能是纯文本,但是VisRAG,在输出中除了包含纯文本外,还可以包含相关的image? 而不是说,只是把retrieve出来的几个页面的截图也提供出来? 例如,提问: 相机的快门按钮在哪里? 回答应该包含一段介绍,另外加上整个相机所有按钮标注的图片(如果pdf里有的话),而不是把整页的PDF截图输出。