'commit'

4 weeks ago · d313ee12f5
parent aa5ffd56b4
commit d313ee12f5
1 changed files with 32 additions and 7 deletions
--- a/dsRag/Start.py
+++ b/dsRag/Start.py
@ -215,9 +215,35 @@ async def rag_stream(request: Request):
                logger.info(f"  {i + 1}. 文档ID: {hit['_id']}, 匹配分数: {hit['_score']:.2f}")
                logger.info(f"      内容: {hit['_source']['user_input']}")

+            # 去重处理：去除vector_results和text_results中重复的user_input
+            vector_sources = [hit['_source'] for hit in vector_results['hits']['hits']]
+            text_sources = [hit['_source'] for hit in text_results['hits']['hits']]
+            
+            # 构建去重后的结果
+            unique_text_sources = []
+            text_user_inputs = set()
+            
+            # 先处理text_results，保留所有
+            for source in text_sources:
+                text_user_inputs.add(source['user_input'])
+                unique_text_sources.append(source)
+            
+            # 处理vector_results，只保留不在text_results中的
+            unique_vector_sources = []
+            for source in vector_sources:
+                if source['user_input'] not in text_user_inputs:
+                    unique_vector_sources.append(source)
+            
+            # 计算优化掉的记录数量和节约的tokens
+            removed_count = len(vector_sources) - len(unique_vector_sources)
+            saved_tokens = sum(len(source['user_input']) for source in vector_sources 
+                             if source['user_input'] in text_user_inputs)
+            
+            logger.info(f"优化掉 {removed_count} 条重复记录，节约约 {saved_tokens} tokens")
+            
            search_results = {
-                "vector_results": [hit['_source'] for hit in vector_results['hits']['hits']],
-                "text_results": [hit['_source'] for hit in text_results['hits']['hits']]
+                "vector_results": unique_vector_sources,
+                "text_results": unique_text_sources
            }

            # 调用阿里云大模型整合结果
@ -243,11 +269,10 @@ async def rag_stream(request: Request):

            回答要求
            1. 依托给定的资料，快速准确地回答问题，可以添加一些额外的信息，但请勿重复内容。
-            2. 如果资源中提供了图片资源，尽量应用图片，并确保图片的清晰度。
-            3. 如果未提供相关信息，请不要回答。
-            4. 如果发现相关信息与原来的问题契合度低，也不要回答
-            5. 使用HTML格式返回，包含适当的段落、列表和标题标签,一定不要使用 ```html 或者 ```!
-            6. 确保内容结构清晰，便于前端展示
+            2. 如果未提供相关信息，请不要回答。
+            3. 如果发现相关信息与原来的问题契合度低，也不要回答
+            4. 使用HTML格式返回，包含适当的段落、列表和标题标签,一定不要使用 ```html 或者 ```!
+            5. 确保内容结构清晰，便于前端展示
            """

            # 调用阿里云大模型