python-langchain框架(3-7-提取pdf中的图片 )

张开发
2026/4/7 0:08:35 15 分钟阅读

分享文章

python-langchain框架(3-7-提取pdf中的图片 )
一、适用场景全覆盖这个方法能轻松应对绝大多数工作、学习中的 PDF 图片提取需求文档整理提取 PDF 报告、白皮书、合同中的插图、图表、logo 等素材学习办公导出课件、教材、论文里的高清图片方便二次编辑使用素材收集批量保存 PDF 画册、说明书、手册中的图片资源高效处理几十页、上百页的 PDF几秒内完成所有图片提取告别手动操作。二、核心优势简单、高效、无损相比截图、在线工具等传统方式这个方案的优势非常突出✅无损提取直接提取 PDF 内嵌的原始图片分辨率 100% 保留无压缩、无模糊✅批量处理自动遍历 PDF 每一页一次性提取所有图片无需逐页操作✅智能命名图片文件自动按「页码 序号」命名清晰对应原 PDF 位置方便查找✅自动归档自动创建专属文件夹所有提取的图片统一保存整洁有序✅格式兼容支持 PNG、JPG、JPEG 等所有常见图片格式无需额外转换✅轻量无依赖本地运行无需上传文件到第三方平台保护文档隐私安全。三、实现方式极简高效零基础可上手整个实现基于轻量的 PDF 处理工具核心逻辑简洁清晰全程无需复杂配置环境准备仅需安装一个轻量的 PDF 处理依赖库占用空间极小安装秒完成路径配置只需指定需要处理的 PDF 文件路径无需修改其他参数自动执行运行后工具会自动打开 PDF逐页扫描识别内嵌图片批量导出自动提取每一张图片的原始数据按规则命名并保存到指定文件夹结果反馈实时显示提取进度最终统计总图片数量清晰直观。整个过程无需编写复杂代码、无需理解专业原理三步即可完成准备环境→指定文件→执行导出零基础用户也能轻松上手。四、实际效果展示运行后自动创建pdf_images文件夹所有图片规整存放文件名格式page页码_img序号.格式一眼就能找到对应页面的图片无论 PDF 有多少页、多少张图片都能快速完成提取大文件也不卡顿导出的图片和 PDF 中原图完全一致可直接用于编辑、打印、展示。五、总结这款 PDF 图片提取方案完美解决了日常办公学习中批量、无损、高效提取 PDF 图片的痛点摒弃了截图的模糊和在线工具的隐私风险本地运行、自动处理、结果清晰。无论是少量图片提取还是大批量文档处理都能轻松胜任是提升工作学习效率的实用小工具强烈推荐大家收藏使用实现代码1234567891011121314151617181920212223242526272829303132333435363738394041424344#pip install pymupdfimportfitzimportos# 创建保存图片的文件夹ifnotos.path.exists(pdf_images):os.mkdir(pdf_images)# 打开 PDFpdf_path./txt/图平台白皮书.pdfpdffitz.open(pdf_path)# 统计total_images0# 遍历每一页forpage_indexinrange(len(pdf)):current_pagepage_index1# 真实页码从1开始pagepdf[page_index]image_listpage.get_images(fullTrue)# 如果本页有图片先输出提示ifimage_list:print(f\n 第 {current_page} 页 找到 {len(image_list)} 张图片)# 遍历当前页的所有图片forimg_index, imginenumerate(image_list,1):xrefimg[0]base_imagepdf.extract_image(xref)image_bytesbase_image[image]image_extbase_image[ext]# 保存图片文件名自带页码image_pathfpdf_images/page{current_page}_img{img_index}.{image_ext}withopen(image_path,wb) as f:f.write(image_bytes)# 输出每张图片的位置print(f ✅ 已保存第 {current_page} 页 第 {img_index} 张图片 → {image_path})total_images1print(f\n 提取完成总共提取{total_images} 张图片)print(f 所有图片保存在pdf_images 文件夹)结果输出 第 1 页 找到 1 张图片✅ 已保存第 1 页 第 1 张图片 → pdf_images/page1_img1.png 第 4 页 找到 1 张图片✅ 已保存第 4 页 第 1 张图片 → pdf_images/page4_img1.jpeg 第 6 页 找到 10 张图片✅ 已保存第 6 页 第 1 张图片 → pdf_images/page6_img1.jpeg✅ 已保存第 6 页 第 2 张图片 → pdf_images/page6_img2.jpeg✅ 已保存第 6 页 第 3 张图片 → pdf_images/page6_img3.jpeg✅ 已保存第 6 页 第 4 张图片 → pdf_images/page6_img4.jpeg✅ 已保存第 6 页 第 5 张图片 → pdf_images/page6_img5.jpeg✅ 已保存第 6 页 第 6 张图片 → pdf_images/page6_img6.jpeg✅ 已保存第 6 页 第 7 张图片 → pdf_images/page6_img7.jpeg✅ 已保存第 6 页 第 8 张图片 → pdf_images/page6_img8.jpeg✅ 已保存第 6 页 第 9 张图片 → pdf_images/page6_img9.jpeg✅ 已保存第 6 页 第 10 张图片 → pdf_images/page6_img10.jpeg 第 7 页 找到 2 张图片✅ 已保存第 7 页 第 1 张图片 → pdf_images/page7_img1.png✅ 已保存第 7 页 第 2 张图片 → pdf_images/page7_img2.png 第 8 页 找到 1 张图片✅ 已保存第 8 页 第 1 张图片 → pdf_images/page8_img1.jpeg 第 10 页 找到 1 张图片✅ 已保存第 10 页 第 1 张图片 → pdf_images/page10_img1.jpeg 第 13 页 找到 1 张图片✅ 已保存第 13 页 第 1 张图片 → pdf_images/page13_img1.jpeg 第 14 页 找到 1 张图片✅ 已保存第 14 页 第 1 张图片 → pdf_images/page14_img1.jpeg......图片存储情况路径

更多文章