太牛了!只需2行程式碼,輕鬆將PDF轉換成Word!

--

可將PDF轉換成docx檔案的Python庫。該專案透過PyMuPDF庫提取PDF檔案中的資料,然後採用python-docx庫解析內容的佈局、段落、圖片、表格等,最後自動生成docx檔案。

來源:菜鳥學Python

pdf2docx功能

- 解析和建立頁面佈局
- 頁邊距
- 章節和分欄 (目前最多支援兩欄佈局)
- 頁首和頁尾 [TODO]

- 解析和建立段落
- OCR 文字 [TODO]
- 水平(從左到右)或豎直(自底向上)方向文字
- 字型樣式例如字型、字號、粗/斜體、顏色
- 文字樣式例如高亮、下劃線和刪除線
- 列表樣式 [TODO]
- 外部超連結
- 段落水平對齊方式 (左/右/居中/分散對齊)及前後間距

- 解析和建立圖片
- 內聯圖片
- 灰度/RGB/CMYK等顏色空間圖片
- 帶有透明通道圖片
- 浮動圖片(襯於文字下方)

- 解析和建立表格
- 邊框樣式例如寬度和顏色
- 單元格背景色
- 合併單元格
- 單元格垂直文字
- 隱藏部分邊框線的表格
- 巢狀表格

- 支援多程序轉換

pdf2docx同時解析出了表格內容和樣式,因此也可以作為一個表格內容提取工具。

- 目前暫不支援掃描PDF文字識別
- 僅支援從左向右書寫的語言(因此不支援阿拉伯語)
- 不支援旋轉的文字
- 基於規則的解析無法保證100%還原PDF樣式

安裝

pip install pdf2docx

案例

from pdf2docx import parse

pdf_file = '/path/to/sample.pdf'
docx_file = 'path/to/sample.docx'

# convert pdf to docx
parse(pdf_file, docx_file)

Run

※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※

我是「數據分析那些事」。常年分享數據分析乾貨,不定期分享好用的職場技能工具。各位也可以關注我的Facebook,按讚我的臉書並私訊「10」,送你十週入門數據分析電子書唷!期待你與我互動起來~

文章推薦

常用的幾個經典Python模組

都2023年了,為什麼資料孤島問題還沒解決!

MySQL必須掌握4種語言!

商業分析應該怎麼做?一篇文章把思維和工具說清楚了!

跟資料打交道的人都得會的這8種資料模型,滿足工作中95%的需求

回顧十週入門數據分析系列文:

關注數據君的臉書:

我是「數據分析那些事」。常年分享數據分析乾貨,不定期分享好用的職場技能工具。按贊我的臉書,會有豐富資料包贈送唷!

--

--

數據分析那些事
數據分析那些事

Written by 數據分析那些事

這是一個專注於數據分析職場的內容部落格,聚焦一批數據分析愛好者,在這裡,我會分享數據分析相關知識點推送、(工具/書籍)等推薦、職場心得、熱點資訊剖析以及資源大盤點,希望同樣熱愛數據的我們一同進步! 臉書會有更多互動喔:https://www.facebook.com/shujvfenxi/

No responses yet