【干货】介绍Python中的模块,轻松将PDF转换成docx

  • Post author:
  • Post category:python


可将

PDF

转换成

docx

文件的

Python

库。该项目通过

PyMuPDF

库提取

PDF

文件中的数据,然后采用

python-docx

库解析内容的布局、段落、图片、表格等,最后自动生成

docx

文件。

pdf2docx功能

  • 解析和创建页面布局

    • 页边距

    • 章节和分栏 (目前最多支持两栏布局)

    • 页眉和页脚 [TODO]

  • 解析和创建段落

    • OCR 文本 [TODO]

    • 水平(从左到右)或竖直(自底向上)方向文本

    • 字体样式例如字体、字号、粗/斜体、颜色

    • 文本样式例如高亮、下划线和删除线

    • 列表样式 [TODO]

    • 外部超链接

    • 段落水平对齐方式 (左/右/居中/分散对齐)及前后间距

  • 解析和创建图片

    • 灰度/RGB/CMYK等颜色空间图片

    • 带有透明通道图片

    • 浮动图片(衬于文字下方)

    • 内联图片

  • 解析和创建表格

    • 边框样式例如宽度和颜色

    • 单元格背景色

    • 合并单元格

    • 单元格垂直文本

    • 隐藏部分边框线的表格

    • 嵌套表格

  • 支持多进程转换


pdf2docx

同时解析出了表格内容和样式,因此也可以作为一个表格内容提取工具。

限制

  • 目前暂不支持扫描PDF文字识别

  • 仅支持从左向右书写的语言(因此不支持阿拉伯语)

  • 不支持旋转的文字

  • 基于规则的解析无法保证100%还原PDF样式

安装

pip install pdf2docx

案例

from pdf2docx import parse

pdf_file = '/path/to/sample.pdf'
docx_file = 'path/to/sample.docx'

# convert pdf to docx
parse(pdf_file, docx_file)

output

ff29b81555a6ae1a251080e51dc96d62.png


NO.


1

往期推荐

Historical articles


200行不到的Python代码,破解了隔壁家小姐姐的wifi密码,然后……


从Pandas到Polars :数据的ETL和查询


YYDS!用Python就能轻松控制你的手机


这几个 Python 包的依赖管理,真的是太赞了!!

分享、收藏、点赞、在看安排一下?

11f9642defe1a395627c932b644b6bdb.gif

ef0e053d118158b04c2f3417857f61e5.gif

8330a9ab939754b36dfe5567290708ad.gif

7233e0b20734ede3cc565ee09326764c.gif