冷查第一,再登榜首!Apache Doris 3.1 全面刷新 JSONBench 性能纪录
在半结构化数据分析领域,真正的瓶颈往往并非来自频繁访问、已缓存的“热数据”,而在于那些存储量庞大、未被预加载、需直接从磁盘读取的 json 文件——即所谓的“冷数据”。
随着 Apache Doris 3.1 版本于9月正式发布,其对 Variant 数据类型的底层架构进行了全面升级,引入了稀疏子列机制、子列模板化设计,并进一步优化了列裁剪逻辑与路径索引结构,同时实现了向量化的 JSON 列裁剪引擎。这些关键改进使得 Doris 在处理冷数据查询时,性能和稳定性实现跨越式提升。
更值得关注的是,基于 Apache Doris 3.1 的最新表现,在权威基准测试 JSONBench 中斩获冷查性能第一名,超越 ClickHouse、Elasticsearch 等主流系统;热查询场景下也位居第二,整体性能遥遥领先!
什么是 JSONBench
JSONBench 是当前最具影响力的 JSON 分析性能评测标准,由 ClickHouse 社区主导发起。该测试采用真实业务场景中的 Bluesky 数据集(包含约十亿条高度嵌套、结构不固定的 JSON 记录),全面检验数据库在复杂半结构化数据下的查询能力,涵盖列式存储设计、解析效率、优化器智能程度等多个维度,被业界广泛视为衡量 JSON 处理能力的“黄金标准”。
Doris 冷查性能登顶榜首
根据最新一轮内部压测及 JSONBench 官方公布的成绩,Apache Doris 3.1 在 Q3–Q5 查询任务中表现出色,在完全无缓存的冷查询场景下,性能显著优于其他所有参测系统,荣登榜首,综合得分全面领跑。
具体成绩如下:
- JSONBench 官方榜单已收录 Doris 3.1 测试结果
- 更多详细数据与分析报告可查阅 SelectDB 官方博客

从榜单可以看出,Doris(得分为 1.57)展现出惊人的性能优势:其查询速度约为 MongoDB(得分 258.21)的 164 倍,达到 PostgreSQL(得分 1687.29)的 1074 倍。同时,相比 Elasticsearch(得分 3.01),性能领先接近一倍,成为高性价比的首选方案。
此外,在热查询场景中,Doris 同样表现强劲,仅次于测试发起方 ClickHouse,排名第二。

性能飞跃的技术基石
Apache Doris 能够在冷查询场景中脱颖而出,源于其在多个核心技术层面的深度协同优化:
- 高效 I/O 路径设计:通过细粒度的 Path 级列裁剪与延迟物化策略,确保仅加载所需 JSON 子字段,精准减少磁盘读取量,有效缓解数据膨胀问题;
- Variant 类型子列级索引:支持基于 JSON 路径的 ZoneMap、BloomFilter 等稀疏索引技术,结合谓词下推与文件级过滤,大幅提升条件匹配效率;
- 高性能查询执行引擎:配备成熟的向量化执行框架与并发调度机制,显著提升复杂查询的吞吐与响应速度;
- 智能化缓存管理:在冷查过程中融合预读机制与操作系统页缓存,增强整体 I/O 吞吐能力。
尤其在 Doris 3.1 版本中,针对 Variant 类型实施了一系列系统性增强:
- 稀疏子列(Sparse Sub-Column)机制:仅对高频出现的 JSON 键进行列式存储,大幅降低 I/O 开销与元数据负担;
- 子列模板化(Schema Template)机制:统一子列类型定义,提升索引命中率与执行计划稳定性;
- 列裁剪与路径索引优化:实现冷读时目标字段的精确定位,避免全字段扫描,强化索引有效性。
了解更多:Variant 数据类型详解
为什么选择 Apache Doris
对于需要稳定、高效、低延迟处理半结构化数据的企业而言,Apache Doris 3.1 正在重新定义性能边界。其核心优势体现在:
- 秒级响应体验:适用于日志分析、用户行为追踪、事件流处理等场景,支持实时交互式探索;
- 兼容存算分离架构:即使部署在 S3 或 HDFS 等对象存储之上,依然保持强大的冷查询能力;
- 极低 I/O 成本:相同查询负载下,冷查 I/O 消耗较 Elasticsearch 下降超 60%;
- 技术代际领先:如上所示,Doris 在 JSON 分析性能上远超 MongoDB、PostgreSQL 和 Elasticsearch,已成为当下最值得信赖的半结构化数据分析平台。
源码地址:点击下载
网友留言(0 条)