技术前沿:多模态RAG系统的应用与探索
随着技术的不断进步,多模态RAG系统已经取得了显著的成熟度。我们的公司在众多企业中已经成功落地了rag和agent项目。而今天,我不再详细描述项目细节,转而分享一个极富创新性的需求。
在广州,有家公司采用了我们的rag搭建方案。产品经理在系统搭建完成后,提出了一个需求。他表示,虽然通过打字、语音和图片上传等方式可以与系统进行交互,但仍然觉得不够便捷。具体地说,他在工作中经常遇到PDF文件或加密信息,这类信息在处理时通常不能进行复制粘贴的操作,这使得他在将信息复制到聊天框时需要截屏、再上传图片,整个过程显得颇为繁琐。
对此,我提出使用现有的图像识别技术(如QQ、微信的OCR功能)来识别图片内容,然后进行复制粘贴操作。产品经理却认为这仍然不够理想。他希望在截屏后能直接调用我们的rag或agent系统。
他希望实现的功能是:当截取一个复杂的公式时,系统能直接进行翻译;截取一个数学问题时,系统能直接给出答案;截取任何内容时,系统能直接调用知识库并给出总结等。
这样的需求对我们来说是一种新的挑战,但也展现出了用户的智慧与前瞻性。随着截图功能的日益普及,无需保存、直接调用大模型的操作模式,无疑为用户带来了更加高效的操作体验。
为了满足这一需求,我们进行了系统调整。通过简单的设置,添加了屏幕截图快捷键功能。在第一版中,我们结合了mss、image、imageTK和bytesIO等技术,实现了通过鼠标、获取选定区域、并将图像内容保存至内存中的功能。
在截屏功能旁边,我们加入了rag和agent的选项。用户可以选择执行的操作,如果是rag,系统将调用chatprompttemplete与OCR技术对图像内容进行识别和处理;如果是agent,则预定义了计算、解释等特定功能的选项(记得我们之前强调的agent功能范围)。