专栏名称: 奇舞精选

《奇舞精选》是由奇舞团维护的前端技术公众号。除周五外，每天向大家推荐一篇前端相关技术文章，每周五向大家推送汇总周刊内容。

购买VIP

购买成为VIP，可查看文章或者RSS订阅

提交新专栏

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

小宇宙RSS订阅方法

X平台RSS订阅方法

领英公司动态RSS订阅方法

RSS代理RSS订阅方法

Telegram频道RSS订阅方法

油管文字版RSS订阅方法

RSSHub订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

TodayRss-海外RSS稳定源

15 种高级 RAG 技术大比拼，值得收藏！

奇舞精选 · 公众号 · 科技自媒体 · 2025-11-20 16:50

主要观点总结

本文介绍了15种核心的分块策略，包括逐行分块法、定长分块法、滑动窗口分块法等，每种策略都附有详细解析、真实案例和可落地的分块方案。这些分块策略对于让大语言模型检索到真正有意义的上下文具有重要意义。

关键观点总结

关键观点1: 分块策略的重要性

为了让大语言模型（LLM）检索到真正有意义的上下文，必须精心设计数据分块策略。本文介绍了15种核心的分块策略，包括不同的分块方法和应用场景。

关键观点2: 逐行分块法

逐行分块法以每一行作为分块边界，每行独立成为一个分块。这种方法适用于聊天记录、文字转录稿等每行代表一个完整想法的数据。

关键观点3: 定长分块法

定长分块法将文本按固定的字数或字符数拆分，不考虑内容的语义逻辑。这种方法适用于结构混乱的非结构化文本，如OCR识别结果、网页爬取的原始文本、老旧扫描文档等。

关键观点4: 滑动窗口分块法

滑动窗口分块法通过设定固定字数/token重叠区域来拆分文本，以保留上下文连贯性。这种方法适用于语义逻辑跨文本边界的内容，如长句、连续论述。

关键观点5: 其他分块策略

除了以上三种策略外，还包括句子分块法、段落分块法、页面分块法、基于章节或标题的分块、基于关键词的分块、基于实体的分块、基于Token的分块、表格分块、递归分块、语义分块、层级分块和内容类型感知分块等。每种策略都有详细的解析、真实案例和可落地的分块方案。

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
文章地址：访问文章快照

分享到微博

推荐文章

金错刀 · 喜欢把“谢谢”挂嘴边的，往往就5种人，第4种要谨慎

6 小时前

李楠或kkk · “Loop” 听起来是一个极其简单的词，但目前行业对其存在着巨大-20260624142108

昨天

金错刀 · 除了聊天，微信还能干点啥

昨天

李楠或kkk · Output 很快就会发布，你们可以比较 AngryMiao 被-20260623221518

昨天

李楠或kkk · 三角洲干员设计已经有点要崩盘了的感觉。。。 S10 赛季，三比特-20260623225655

昨天

软购商城 · 软购商城「讨价」-新功能上线！买软价更低！

1 年前

斌叔OKmath · 豆包和国外一流模型差距仍然很大，一个简单的着色，全变了这个功能在-20250403093324

1 年前

网信河南 · 十大关键词看2024中国网络法治建设新亮点

1 年前

都市现场 · 离谱！“增强运动会”将在美国举行，允许使用兴奋剂，超世界纪录奖百万美元

1 年前

问北京 · 这个店，开在小区底商有问题吗？居民：“路过看到就会害怕……”

1 年前