批量去除标题乱七八糟的符号!python工具!

通过正则式的方式把指定文件夹中的标题中的符号都去除,这样让SEO更简单!
# 原始文件夹路径和新文件夹路径
source_folder = r"E:\采集好的数据"
output_folder = r"E:\采集好的数据\改"
import os
import re
# 正则表达式:只保留中文字符
pattern = r"[^\u4e00-\u9fa5]"
# 原始文件夹路径和新文件夹路径
source_folder = r"E:\采集好的数据"
output_folder = r"E:\采集好的数据\改"
# 如果目标文件夹不存在,则创建
if not os.path.exists(output_folder):
    os.makedirs(output_folder)
# 批量处理文件
for filename in os.listdir(source_folder):
    if filename.endswith(".txt"):
        # 只保留中文字符作为新文件名
        new_filename = re.sub(pattern, "", filename)
        # 检查新文件名是否为空
        if not new_filename.strip():
            new_filename = "未命名文件"
        # 确保文件名后缀为 .txt
        new_filename += ".txt"
        # 构建原文件路径和新文件路径
        old_file_path = os.path.join(source_folder, filename)
        new_file_path = os.path.join(output_folder, new_filename)
        # 复制文件到新的文件夹并使用新文件名
        with open(old_file_path, "r", encoding="utf-8") as file:
            content = file.read()
        with open(new_file_path, "w", encoding="utf-8") as new_file:
            new_file.write(content)
        print(f"Processed: {filename} -> {new_filename}")
print("文件标题批处理完成!")
 
    




