专栏名称: 老刘说NLP

老刘，NLP开源爱好者与践行者。主页：https://liuhuanyong.github.io。老刘说NLP，将定期发布语言资源、工程实践、技术总结等内容，欢迎关注。

购买VIP

购买成为VIP，可查看文章或者RSS订阅

提交新专栏

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

小宇宙RSS订阅方法

X平台RSS订阅方法

领英公司动态RSS订阅方法

RSS代理RSS订阅方法

Telegram频道RSS订阅方法

油管文字版RSS订阅方法

RSSHub订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

TodayRss-海外RSS稳定源

如何解决文档处理中的顺序错误问题：文档阅读顺序及OCR阅读顺序代表应对方案

老刘说NLP · 公众号 · 程序员 · 2024-11-12 08:40

主要观点总结

本文主要介绍了文档顺序的问题，包括RAG切分的开源库Chonkie的五种切分方式、OCR中的阅读顺序问题以及文档布局中的阅读顺序问题。文章提到了一些解决方案，包括使用启发式方法、深度学习模型等，并讨论了不同方案的优缺点。文章还提到了开源代码和参考文献。

关键观点总结

关键观点1: RAG切分的开源库Chonkie的五种切分方式

Chonkie支持五种不同的文本切分方式，包括TokenChunker、WordChunker、SentenceChunker、SemanticChunker和SDPMChunker，可根据需求选择不同的切分方式。

关键观点2: OCR中的阅读顺序问题

在实际生产应用中，OCR组件活动会根据布局信息排列词语的顺序，但有时这种排列方式不符合人类的阅读习惯，需要解决阅读顺序问题。解决方案包括使用大模型进行OCR修正，以及使用启发式方法等。

关键观点3: 文档布局中的阅读顺序问题

文档布局中的阅读顺序问题涉及到版式布局分析和文本框的排列。解决方案包括使用启发式方法、深度学习模型等。文章还介绍了一些开源代码和参考文献。

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址 (快捷配置)
总结与预览地址：访问文章预览/总结
文章地址：访问文章快照

分享到微博

推荐文章

伯乐在线 · 离谱！小米新车刚官宣就遭 AI 投毒，搜索全是起火维权黑词。网友：没车主哪来车祸？

16 小时前

程序员的那些事 · 双标?! 刚被 Grok4.5 反超，OpenAI 立刻推翻自己曾经主推的 AI 编码基准。网友：输不起就改卷子是吧

23 小时前

51CTO技术栈 · GPT5.6正式发布！Sol杀穿榜单，ChatGPTWork取代Codex，Claude急了？

昨天

直通硅谷 · 精选SDE岗位丨Two Sigma、Tesla、Amazon等公司持续热招！

2 年前

第一财经公司与行业 · 节目预告丨哪些行业或将“七翻身”？

2 年前

中铁九局大连分公司 · 七夕 | 缘来中铁 · 情定蔚蓝 -

1 年前

哈尔滨日报 · 方便！清明祭扫高峰，开通哈东站至天河园直达班车

1 年前

南方都市报 · 一地宣布：五一期间，高速上没电、没气、没油，免费拖车！

1 年前