VisRAG response with no image

对于demo中的VisRAG，正常的理解是不是应该是这样的：
普通的RAG输出只能是纯文本，但是VisRAG，在输出中除了包含纯文本外，还可以包含相关的image？ 而不是说，只是把retrieve出来的几个页面的截图也提供出来？
例如，提问： 相机的快门按钮在哪里？
回答应该包含一段介绍，另外加上整个相机所有按钮标注的图片（如果pdf里有的话），而不是把整页的PDF截图输出。