MinerU

2个月前发布 23 0 0

MinerU,一站式开源高质量数据提取工具,支持PDF、网页、多格式电子书提取,自动识别并转换LaTeX格式、HTML格式,自动OCR,支持多语言。

收录时间:
2025-08-15

MinerU简介

MinerU是一款将PDF转化为机器可读格式的工具(如markdown、json),可以很方便地抽取为任意格式。 MinerU诞生于书生-浦语的预训练过程中。MinerU能保留原PDF文档结构,提取文字、图片、图片描述、表格等内容,自动识别并转换LaTeX格式、HTML格式,自动OCR,支持多语言。

MinerU

MinerU主要功能:

  • 删除页眉、页脚、脚注、页码等元素,确保语义连贯

  • 输出符合人类阅读顺序的文本,适用于单栏、多栏及复杂排版

  • 保留原文档的结构,包括标题、段落、列表等

  • 提取图像、图片描述、表格、表格标题及脚注

  • 自动识别并转换文档中的公式为LaTeX格式

  • 自动识别并转换文档中的表格为HTML格式

  • 自动检测扫描版PDF和乱码PDF,并启用OCR功能

  • OCR支持84种语言的检测与识别

  • 支持多种输出格式,如多模态与NLP的Markdown、按阅读顺序排序的JSON、含有丰富信息的中间格式等

  • 支持多种可视化结果,包括layout可视化、span可视化等,便于高效确认输出效果与质检

  • 支持CPU和GPU环境

  • 兼容Windows、Linux和Mac平台

MinerU核心功能与优势:

  • Magic-PDF模块:专注于PDF文档处理,能够智能识别并去除非正文内容如页眉、页脚,同时精准保留标题、段落、列表等结构,支持图片、表格、公式的提取,确保转换后的Markdown格式既准确又易于阅读。

  • Magic-Doc模块:针对网页和电子书,能够从网页中提取正式内容。

  • 多模态内容处理:MinerU不仅处理文本,还能有效提取和处理图像、表格、公式等多模态内容。

  • 多语言支持:MinerU支持包括繁简中文在内的84种语言。

  • 格式多样:支持多种输出格式和可视化结果,适配 CPU 和 GPU 环境,兼容多平台。

  • 自动识别转换:识别并转换公式为 LaTeX 格式,表格为 LaTeX 或 HTML 格式,还能自动检测并启用 OCR 功能,。

MinerU只要应用于学术研究、市场分析、法律文档处理、知识管理等领域,使得我们能高效地从大量文档中提取关键信息,从而加速数据准备过程,为大模型训练、知识图谱构建等提供高质量的数据支持。

MinerU由上海人工智能实验室(上海ai实验室)大模型数据基座OpenDataLab团队开发,并在2024年的WAIC(世界人工智能大会)上发布,迅速在GitHub上获得关注,成为Python的热门项目。

数据统计

数据评估

MinerU浏览人数已经达到23,如你需要查询该站的相关权重信息,可以点击"5118数据""爱站数据""Chinaz数据"进入;以目前的网站数据参考,建议大家请以爱站数据为准,更多网站价值评估因素如:MinerU的访问速度、搜索引擎收录以及索引量、用户体验等;当然要评估一个站的价值,最主要还是需要根据您自身的需求以及需要,一些确切的数据则需要找MinerU的站长进行洽谈提供。如该站的IP、PV、跳出率等!

关于MinerU特别声明

本站土豆丝提供的MinerU都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由土豆丝实际控制,在2025年8月15日 上午12:27收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,土豆丝不承担任何责任。

相关导航

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...