YunNanDsBase/Py/DoCityDocx.py

import os
import win32com
from win32com.client import Dispatch
import re

# pip install pywin32 openpyxl
# pip install pywin32
working_dir = r"D:/dsWork/YunNanDsBase/Doc/全省及州市县区人口与教育报告集20241023/16个州市报告2022/分析报告20240510/"
import openpyxl

# 在工作目录下创建Excel目录
excel_dir = working_dir + 'Excel'
if not os.path.exists(excel_dir):
    os.mkdir(excel_dir)

# 关键词
keyword = '人口变化及其对教育的影响'

# 是不是打Word显示
docApp = win32com.client.Dispatch('Word.Application')
# 是不是打Word显示
docApp.Visible = False
docApp.DisplayAlerts = 0

# 遍历工作目录下所有的docx文件，将文件名用keyword进行分隔，前一半是州市名称，后一半是上报的时间，我们取前一半的州市名称
for file in os.listdir(working_dir):
    if file.endswith('.docx') and not file.startswith('~'):
        file_name = file.split('.')[0]
        # 判断一下file_name中是不是存在keyword,如果不存在，则输出错误，并结束程序
        if keyword not in file_name:
            print('Error: ' + file_name + ' 文件名称中并不包含:' + keyword)
            exit()
        # 确认包含后，提取出前半部分作为城市名称
        city_name = file_name.split(keyword)[0]
        # 在excel_dir目录下创建这个城市的子目录，准备将生成的excel文件放在这个子目录下
        city_dir = excel_dir + '/' + city_name
        if not os.path.exists(city_dir):
            os.mkdir(city_dir)
        # 将当前docx进行读取其中的每一个段落，要求以 "图"+数字开头，这是图例的意思
        doc_path = working_dir + '/' + file
        # print(doc_path)
        doc = docApp.Documents.Open(doc_path)
        # 遍历文档中所有的文字段落,判断是不是以 图+数字开头
        idx = 1
        # 图表的名称列表
        tb_list = []
        for para in doc.Paragraphs:
            x = para.Range.Text.strip().replace("图 ", "图").replace("  ", " ")
            if x.startswith("图"):
                tb_list.append(x)
                idx = idx + 1

        # 遍历文档中的所有内嵌形状
        idx = 1
        for inline_shape in doc.InlineShapes:
            if inline_shape.Type == win32com.client.constants.wdInlineShapeChart:  # 检查是否为内嵌图表
                shape = doc.InlineShapes(idx)
                sheet = shape.Chart.ChartData.Workbook.Worksheets(1)
                # 创建一个新的Excel工作簿
                wb = openpyxl.Workbook()
                ws = wb.active

                # 遍历Excel工作表中的所有单元格，并将其写入新的工作簿
                for row in range(1, sheet.UsedRange.Rows.Count + 1):
                    for col in range(1, sheet.UsedRange.Columns.Count + 1):
                        cell_value = sheet.Cells(row, col).Value
                        ws.cell(row=row, column=col, value=cell_value)
                # 保存新的Excel文件
                original_string = tb_list[idx - 1]
                # 使用正则表达式过滤，只保留中文、英文和数字
                original_string = original_string[1:]
                if ' ' in original_string:
                    original_string = original_string.split(" ")[1]
                filtered_string = re.sub(r'[^\u4e00-\u9fa5a-zA-Z0-9]', '', original_string)
                fileName = '【' + str(idx) + '】' + filtered_string + ".xlsx"
                wb.save(city_dir + '/' + fileName)
                print("保存文件：" + fileName)
                # 下一个图表的索引号
                idx = idx + 1
        # print(idx - 1)
        # 关闭文档和Word应用
        doc.Close()
docApp.Quit()
print("恭喜，所有市州数据整理工作成功完成！")