吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 2590|回复: 23
收起左侧

[Python 原创] 用markitdown把pdf批量转md

[复制链接]
barnett2016 发表于 2024-12-16 23:16
试了一下微软的新出的markitdown。
github.com/microsoft/markitdown

pdf转md有奇效,Adobe Acrobat DC转不出来文字的pdf。它可以秒出文本。

方便提取文字,

适合那些不是ocr的方案。纯图片要ocr的它也没办法。

以前我用PyMuPDF(fitz),总感觉不够直接。 ​​​

[Python] 纯文本查看 复制代码
01
02
03
04
05
06
07
08
09
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
import os
from markitdown import MarkItDown
 
def convert_pdfs_to_markdown(directory):
    # 创建MarkItDown对象
    markitdown = MarkItDown()
 
    # 检查目录是否存在
    if not os.path.isdir(directory):
        print(f"错误:目录 {directory} 不存在。")
        return
 
    # 遍历目录中的所有文件
    for filename in os.listdir(directory):
        if filename.endswith(".pdf"):
            pdf_path = os.path.join(directory, filename)
            markdown_filename = os.path.splitext(filename)[0] + ".md"
            markdown_path = os.path.join(directory, markdown_filename)
 
            # 打印操作提示
            print(f"正在转换文件:{pdf_path}")
            print(f"Markdown文件将保存为:{markdown_path}")
 
            # 使用markitdown转换PDF到Markdown
            try:
                result = markitdown.convert(pdf_path)
                with open(markdown_path, 'w', encoding='utf-8') as md_file:
                    md_file.write(result.text_content)
                print(f"转换成功:{markdown_path}")
            except Exception as e:
                print(f"转换失败:{e}")
 
    print("所有PDF文件转换完成。")
 
# 用户输入PDF文件目录
pdf_directory = input("请输入PDF文件所在的目录:")
convert_pdfs_to_markdown(pdf_directory)

免费评分

参与人数 1吾爱币 +1 热心值 +1 收起 理由
miketrx + 1 + 1 谢谢@Thanks!

查看全部评分

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

gztf 发表于 2024-12-17 07:18
不错的方法,保存了
liubai600 发表于 2024-12-17 07:22
三滑稽甲苯 发表于 2024-12-17 08:07
Echo001 发表于 2024-12-17 08:12
收藏一下,有用
tianyagd 发表于 2024-12-17 08:13
我需要将PDF文件里面的图片扫描版的表格提取数据,有啥好办法没?
spark9 发表于 2024-12-17 08:17
tianyagd 发表于 2024-12-17 08:13
我需要将PDF文件里面的图片扫描版的表格提取数据,有啥好办法没?

试试 ABBYY FineReader
zhengkejie 发表于 2024-12-17 08:41
快快快,等不及了,谁帮忙编译一个
kongson 发表于 2024-12-17 08:54
感谢分享,真实用
alan3258 发表于 2024-12-17 09:33
正好用得着,挺实用的
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2025-11-5 04:42

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表