QingLong/AI/AiService/HuangHaiTest.py

import asyncio
import json
import re
from CommonUtil import *


def update_json_with_ai(client, markdown_content, json_obj):
    """
    更新 JSON 对象，将 title 属性生成描述信息填充到 text 属性中
    """
    # 如果 json_obj 是字符串，则将其解析为字典
    if isinstance(json_obj, str):
        json_obj = json.loads(json_obj)

    # 检查是否存在嵌套的 data 对象
    if "data" in json_obj and isinstance(json_obj["data"], dict):
        data = json_obj["data"]
        if "title" in data:
            title = data["title"]
            description = generate_description_with_ai(client, markdown_content, title)
            data["text"] = description  # 将生成的描述信息填充到 text 属性中
    elif "title" in json_obj:
        # 如果 title 直接存在于 json_obj 中
        title = json_obj["title"]
        description = generate_description_with_ai(client, markdown_content, title)
        json_obj["text"] = description

    # 递归处理 items 中的子对象
    if "items" in json_obj:
        for item in json_obj["items"]:
            update_json_with_ai(client, markdown_content, item)

    return json_obj


def generate_description_with_ai(client, markdown_content, title):
    """
    使用 AI 生成一句话的描述信息
    """
    # 构造提示词
    prompt = f"以下是 Markdown 内容：\n{markdown_content}\n\n请为以下标题生成一句话的描述信息，描述信息应简洁明了，且与标题内容相关，不要包含任何序号（如 1.、2. 等）或 Markdown 语法（如 #、- 等）,也一定不要重复标题：\n{title}"

    try:
        # 调用 AI 模型
        response = client.chat.completions.create(
            model=MODEL_NAME,  # 根据需要选择合适的模型
            messages=[
                {"role": "system", "content": "你是一个专业的助手，能够根据上下文生成简洁的描述信息。"},
                {"role": "user", "content": prompt}
            ],
            max_tokens=50  # 限制生成内容的长度
        )

        # 提取生成的描述信息
        if response.choices and response.choices[0].message.content:
            description = response.choices[0].message.content.strip()
            # 去除序号和 Markdown 语法（如 1.、#、- 等）
            description = re.sub(r'[\d.]+', '', description).strip()  # 去除序号
            description = re.sub(r'[#-]', '', description).strip()  # 去除 Markdown 语法
            return description
        else:
            print(f"AI 未返回有效描述信息，标题：{title}")
            return title  # 如果 AI 未返回有效描述，则返回标题本身
    except Exception as e:
        print(f"调用 AI 生成描述信息时出错：{e}")
        return title  # 如果调用失败，则返回标题本身


# 流式生成数据的函数
async def generate_stream_markdown(course_name: str):
    """
    流式生成 Markdown 数据，并在控制台输出完整的 Markdown 内容
    """
    # 调用阿里云 API，启用流式响应
    stream = client.chat.completions.create(
        model=MODEL_NAME,
        messages=[
            {'role': 'system', 'content': '你是一个教学经验丰富的基础教育教师'},
            {'role': 'user',
             'content': '帮我设计一下' + course_name + '的课件提纲，用markdown格式返回。强调1、标签只能返回 #,##,###,-,其它标签一率不可以返回，这个非常重要！2、不要返回 ```markdown 或者 ```  这样的内容！ 3、每部分都有生成完整的一、二、三级内容，不能省略。'}
        ],
        stream=True,  # 启用流式响应
        timeout=6000,
    )

    # 初始化完整的 Markdown 内容
    full_markdown = ""

    # 逐字返回数据
    for chunk in stream:
        if chunk.choices[0].delta.content:
            chunk_content = chunk.choices[0].delta.content
            full_markdown += chunk_content  # 拼接 Markdown 内容
            for char in chunk_content:
                yield char.encode("utf-8")
                await asyncio.sleep(0.05)  # 控制逐字输出的速度

    # 在控制台输出完整的 Markdown 内容
    print("\n完整的 Markdown 内容：")
    print(full_markdown)


# 测试函数
async def test_generate_stream_markdown():
    async for chunk in generate_stream_markdown("三角形面积"):
        print(chunk.decode("utf-8"), end="", flush=True)


def extract_level1_title(markdown_content):
    """
    从 Markdown 字符串中提取一级目录的文本内容
    """
    # 使用正则表达式匹配一级目录的标题
    match = re.search(r'^#\s+(.+)$', markdown_content, re.MULTILINE)
    if match:
        return match.group(1)  # 返回一级目录的文本内容
    return None


def extract_level2_titles(markdown_content):
    """
    从 Markdown 字符串中提取所有二级目录的文本内容，返回一个数组
    """
    # 使用正则表达式匹配所有二级目录的标题
    matches = re.findall(r'^##\s+(.+)$', markdown_content, re.MULTILINE)
    # 去重，确保每个二级目录标题只出现一次
    unique_matches = list(dict.fromkeys(matches))
    return unique_matches  # 返回去重后的二级目录标题数组


def extract_level2_and_level3(markdown_content):
    """
    遍历 Markdown 内容，记录所有二级目录、三级目录及其下的 - 内容
    """
    lines = markdown_content.splitlines()  # 将内容按行分割
    current_level3 = None
    level3_items = []
    result = []  # 用于存储最终的结构化数据

    def save_level3():
        """保存当前三级目录及其内容"""
        nonlocal current_level3, level3_items
        if current_level3:
            result[-1]["children"].append({
                "title": current_level3,
                "items": level3_items.copy()
            })
            level3_items.clear()

    for line in lines:
        line = line.strip()  # 去掉前后空格
        if not line:  # 跳过空行
            continue

        if line.startswith("## "):  # 二级目录
            # 先处理之前未完成的三级目录
            if current_level3:
                save_level3()
                current_level3 = None

            # 处理二级目录
            current_level2 = line[3:].strip()  # 去掉 "## " 取标题
            result.append({
                "title": current_level2,
                "children": []  # 用于存储三级目录
            })

        elif line.startswith("### "):  # 三级目录
            # 遇到新三级目录时，先处理前一个
            if current_level3:
                save_level3()
            current_level3 = line[4:].strip()  # 去掉 "### " 取标题
            level3_items = []

        elif line.startswith("- "):  # 三级目录下的内容项
            if current_level3 is None:
                current_level3 = "未命名章节"  # 兜底处理
            level3_items.append(line[2:].strip())  # 去掉 "- " 取内容

    # 处理最后一个三级目录
    if current_level3:
        save_level3()

    return result

def add_descriptions_to_structure(client, markdown_content, structure):
    """
    遍历结构化数据，为每个二级和三级文本生成描述信息，并赋值给 text 属性
    """
    for level2 in structure:
        # 为二级目录生成描述信息
        level2_title = level2["title"]
        level2["text"] = generate_description_with_ai(client, markdown_content, level2_title)

        # 遍历三级目录
        for level3 in level2["children"]:
            # 为三级目录生成描述信息
            level3_title = level3["title"]
            level3["text"] = generate_description_with_ai(client, markdown_content, level3_title)

    return structure

# 运行应用
if __name__ == "__main__":
    # 使用 asyncio.run 运行异步函数
    # asyncio.run(test_generate_stream_markdown())

    # 读取Sample.md内容
    with open("Sample.md", "r", encoding="utf-8") as file:
        markdown_content = file.read()

    # 一级名称
    level1_title = extract_level1_title(markdown_content)
    json_obj = {"type": "cover", "data": {"title": level1_title, "text": ""}}
    # print(json.dumps(json_obj, ensure_ascii=False))
    # 更新 JSON 对象
    updated_json = update_json_with_ai(client, markdown_content, json_obj)
    print(json.dumps(updated_json, ensure_ascii=False, indent=2))

    # 二级名称列表
    contents = extract_level2_titles(markdown_content)
    json_obj = {"type": "contents", "data": {"items": contents}}
    print(json.dumps(json_obj, ensure_ascii=False))

    # 二级目录和三级目录
    result = extract_level2_and_level3(markdown_content)
    print(json.dumps(result, ensure_ascii=False, indent=2))

    result=add_descriptions_to_structure(client, markdown_content, result)
    print(json.dumps(result, ensure_ascii=False, indent=2))