标准的检索增强生成(RAG)交互模式存在一个根本性的延迟问题。用户提交查询,后端执行一个包含向量检索、文档重排、上下文构建和LLM推理的复杂工作流,整个过程可能耗时5到30秒。在这期间,前端界面通常显示一个静态的加载动画,用户体验极差。在真
2023-10-27