Alt加A截图怎么一拖就拉下来，超简单教你操作！

技术前沿：多模态RAG系统的应用与探索

随着技术的不断进步，多模态RAG系统已经取得了显著的成熟度。我们的公司在众多企业中已经成功落地了rag和agent项目。而今天，我不再详细描述项目细节，转而分享一个极富创新性的需求。

在广州，有家公司采用了我们的rag搭建方案。产品经理在系统搭建完成后，提出了一个需求。他表示，虽然通过打字、语音和图片上传等方式可以与系统进行交互，但仍然觉得不够便捷。具体地说，他在工作中经常遇到PDF文件或加密信息，这类信息在处理时通常不能进行复制粘贴的操作，这使得他在将信息复制到聊天框时需要截屏、再上传图片，整个过程显得颇为繁琐。

对此，我提出使用现有的图像识别技术（如QQ、微信的OCR功能）来识别图片内容，然后进行复制粘贴操作。产品经理却认为这仍然不够理想。他希望在截屏后能直接调用我们的rag或agent系统。

他希望实现的功能是：当截取一个复杂的公式时，系统能直接进行翻译；截取一个数学问题时，系统能直接给出答案；截取任何内容时，系统能直接调用知识库并给出总结等。

这样的需求对我们来说是一种新的挑战，但也展现出了用户的智慧与前瞻性。随着截图功能的日益普及，无需保存、直接调用大模型的操作模式，无疑为用户带来了更加高效的操作体验。

为了满足这一需求，我们进行了系统调整。通过简单的设置，添加了屏幕截图快捷键功能。在第一版中，我们结合了mss、image、imageTK和bytesIO等技术，实现了通过鼠标、获取选定区域、并将图像内容保存至内存中的功能。

在截屏功能旁边，我们加入了rag和agent的选项。用户可以选择执行的操作，如果是rag，系统将调用chatprompttemplete与OCR技术对图像内容进行识别和处理；如果是agent，则预定义了计算、解释等特定功能的选项（记得我们之前强调的agent功能范围）。