RAG时代,制作mdx的重大突破
本帖最后由 shawky.nasr 于 2025-4-16 16:11 编辑参考:OmniDocBench: Benchmarking Diverse PDF Document Parsing with Comprehensive Annotations
研究的代码
总结结果:
国外,最强识别模型是(到2025年4月):Gemini-2.5-Pro
国内排行:
第一,Doc2X
第二:合合模型
第三:Qwen2.5-VL-72B
第四:MinerU
相关:
这个OCR很强呀 本帖最后由 shawky.nasr 于 2025-4-16 16:37 编辑
简单教程:
1.导出markdown
2. 排版文本
新模型PDF-Craft,PDF Craft 可以将 PDF 文件转化为Epub等格式
https://github.com/oomol-lab/pdf-craft/raw/main/docs/images/pdf2md-cn.png
https://github.com/oomol-lab/pdf-craft/raw/main/docs/images/pdf2epub-cn.png
https://github.com/oomol-lab/pdf-craft/raw/main/docs/images/epub-tox-cn.png
https://github.com/oomol-lab/pdf-craft/raw/main/docs/images/epub-citations-cn.png
Pdf Craft “大模型加速器 2.0”正式发布,合合信息以技术升级破解大模型应用难题
解析稳定率达99.99%!合合信息“大模型加速器2.0”助力AI打破“幻觉”
2025年5月,可以说合合最强的,他们改善表格识别 大佬们说的太专业,只有佩服。
页:
[1]