openYuanrong数据系统高可用设计:故障恢复与在线扩缩容机制详解
openYuanrong数据系统高可用设计故障恢复与在线扩缩容机制详解【免费下载链接】yuanrong-datasystemopenYuanrong 数据系统是以内存为中心、近计算的分布式异构多级缓存为AI训推、Agent、大数据、微服务等分布式应用提供高性能的数据对象KV与数据流访问、HBM/DRAM/SSD 多级缓存以及实例间零拷贝数据共享能力。项目地址: https://gitcode.com/openeuler/yuanrong-datasystem前往项目官网免费下载https://ar.openeuler.org/ar/openYuanrong数据系统是一个以内存为中心、近计算的分布式异构多级缓存系统为AI训推、Agent、大数据、微服务等分布式应用提供高性能的数据对象与数据流访问能力。在分布式系统中高可用性是确保业务连续性的关键要素。本文将深入解析openYuanrong数据系统的高可用设计特别是其故障恢复机制和在线扩缩容能力帮助您理解如何构建稳定可靠的分布式缓存系统。高可用架构设计概览openYuanrong数据系统的高可用架构建立在分布式集群管理的基础上通过多层次的容错机制确保系统在面对节点故障和负载变化时能够持续提供服务。系统支持两种集群管理方式基于ETCD的外部集群管理和基于Metastore的内置集群管理两者都提供了节点发现、健康检测、故障恢复及在线扩缩容等核心功能。图1基于ETCD的集群管理架构故障恢复机制详解节点健康检测与故障发现openYuanrong数据系统采用心跳机制进行节点健康检测。每个worker节点定期向集群管理服务ETCD或Metastore发送心跳信号集群管理器通过监控心跳状态来检测节点健康状况。关键配置参数node_timeout_s默认60秒节点超时最大时间间隔node_dead_timeout_s默认300秒节点存活检测最大时间间隔当节点超过node_timeout_s未发送心跳时系统会将其标记为可疑状态超过node_dead_timeout_s仍未恢复则标记为死亡节点。这种分级检测机制避免了因网络抖动导致的误判。数据可靠性保障策略系统提供多种数据可靠性策略确保在故障发生时数据不会丢失Write-Through模式数据同步写入二级缓存确保高可靠性但可能影响性能Write-Back模式数据异步写入二级缓存平衡性能与可靠性None模式数据仅保存在内存中不持久化到二级缓存在distributed_disk模式下worker故障后的数据恢复需要依赖ETCD推进恢复流程包括发现故障worker、调度其他worker接管恢复任务以及在恢复完成后更新数据访问路径。故障接管与数据恢复流程当节点发生故障时系统会触发自动恢复流程故障检测集群管理器检测到节点心跳超时状态标记将故障节点标记为死亡状态数据迁移将故障节点上的数据迁移到健康节点元数据更新更新数据访问路径将客户端请求重定向到新的数据位置资源回收清理故障节点的资源占用图2故障恢复与数据迁移流程重要注意事项ETCD短暂抖动时故障恢复流程可能出现延迟依赖故障worker恢复的数据可能短暂不可读ETCD长时间不可用时系统可能无法及时发现worker故障或调度恢复任务生产环境使用distributed_disk时应将ETCD作为可靠性能力的关键依赖进行高可用部署在线扩缩容机制动态扩容机制openYuanrong数据系统支持在线动态扩容新节点可以无缝加入现有集群新节点注册新启动的worker节点向集群管理器注册哈希环更新系统更新一致性哈希环将新节点纳入数据分布范围数据重平衡根据新的哈希环分布部分数据会自动迁移到新节点服务就绪新节点完成初始化后开始接收客户端请求配置参数add_node_wait_time_s默认60秒新节点加入哈希环的等待超时时间enable_hash_ring_self_healing默认false是否启用哈希环自愈功能优雅缩容机制系统提供无损数据退出模式确保在节点下线时数据不丢失缩容触发通过Kubernetes污点标记或手动触发缩容数据迁移将待下线节点的数据迁移到其他健康节点流量切换逐步将客户端请求切换到其他节点节点下线确认数据迁移完成后安全关闭节点优雅退出配置enable_lossless_data_exit_mode是否启用无损数据退出模式data_migrate_rate_limit_mb数据迁移的流控默认40MB/sscaleInTaint识别优雅退出的Kubernetes污点标签哈希环自愈与对账机制系统内置哈希环自愈功能当哈希环状态异常时会自动修复enable_hash_ring_self_healing启用哈希环自愈功能enable_reconciliation节点重启时启用对账功能确保数据一致性集群管理实现细节基于ETCD的集群管理ETCD作为外部高可用键值存储提供成熟的分布式一致性保障# 部署ETCD集群 etcd --listen-client-urls http://0.0.0.0:2379 \ --advertise-client-urls http://localhost:2379 # 启动worker并连接ETCD dscli start -w --worker_address 127.0.0.1:31501 --etcd_address 127.0.0.1:2379适用场景已有ETCD集群的环境需要跨数据中心的高可用部署多集群共享元数据的需求独立运维元数据存储的需求基于Metastore的集群管理Metastore是集成在worker中的元数据服务无需外部依赖# 主节点启动Metastore服务 dscli start -w --worker_address 192.168.1.1:31501 \ --start_metastore_service true \ --metastore_address 192.168.1.1:2379 # 从节点连接主节点Metastore dscli start -w --worker_address 192.168.1.2:31501 \ --start_metastore_service false \ --metastore_address 192.168.1.1:2379适用场景快速部署减少外部依赖资源受限的生产环境简化运维复杂度实践建议与最佳实践故障恢复优化配置ETCD高可用部署生产环境应部署ETCD集群至少3节点确保元数据服务的可用性合理设置超时参数根据网络环境和业务需求调整node_timeout_s和node_dead_timeout_s启用元数据恢复设置enable_metadata_recoverytrue在worker重启时回补本地元数据到master扩缩容操作指南扩容操作准备新节点并安装datasystem-worker配置新节点连接现有集群启动新节点系统自动完成数据重平衡缩容操作为待下线节点添加优雅退出污点等待数据迁移完成监控迁移进度确认无流量后安全下线节点监控与告警建议监控以下关键指标节点心跳状态和延迟数据迁移进度和速率哈希环健康状态内存和存储使用率客户端请求成功率常见问题与解决方案Q1: 故障恢复期间客户端请求超时怎么办A: 故障恢复期间依赖故障worker的数据可能短暂不可读。建议客户端启用重试机制配置合理的请求超时时间在业务层保证幂等性Q2: 如何避免扩缩容期间的数据丢失A: 启用无损数据退出模式enable_lossless_data_exit_modetrue并确保数据迁移完成前不强制下线节点监控数据迁移进度配置适当的迁移速率限制Q3: ETCD故障对系统有什么影响A: ETCD故障会影响节点故障发现和恢复流程数据访问路径更新新节点加入和节点下线建议将ETCD部署为高可用集群并监控其健康状态。总结openYuanrong数据系统通过完善的故障恢复机制和灵活的在线扩缩容能力为分布式应用提供了高可用的数据访问服务。系统支持多种数据可靠性策略结合ETCD或Metastore的集群管理确保了在节点故障和负载变化时的业务连续性。无论您选择基于ETCD的外部集群管理还是基于Metastore的内置集群管理openYuanrong都提供了丰富的配置选项和监控手段帮助您构建稳定可靠的分布式缓存系统。通过合理配置和遵循最佳实践您可以充分发挥系统的高可用特性为AI训推、大数据处理等关键业务提供坚实的数据基础设施支持。图3openYuanrong数据系统完整部署架构【免费下载链接】yuanrong-datasystemopenYuanrong 数据系统是以内存为中心、近计算的分布式异构多级缓存为AI训推、Agent、大数据、微服务等分布式应用提供高性能的数据对象KV与数据流访问、HBM/DRAM/SSD 多级缓存以及实例间零拷贝数据共享能力。项目地址: https://gitcode.com/openeuler/yuanrong-datasystem创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

相关新闻

openEuler社区活动全攻略:3大类型活动参与指南与实用技巧

openEuler社区活动全攻略:3大类型活动参与指南与实用技巧

openEuler社区活动全攻略:3大类型活动参与指南与实用技巧 【免费下载链接】community The Community repo is to store all the information about openEuler Community, inclouding governance, SIGs(project teams), Communications and etc. 项目地址: https:/…

2026/6/27 20:47:02阅读更多 →
六层板阻抗公差总超标?层压工艺全解析

六层板阻抗公差总超标?层压工艺全解析

不少工程师完成六层板阻抗仿真计算、布线规则设置、参考平面检查,投板后实测阻抗公差持续超标,反复调整线宽依旧无法收敛,核心原因是设计阶段只考虑理想理论参数,忽略六层多层压合带来的工艺变量波动。六层板经过多次叠合、高温压…

2026/6/27 20:47:02阅读更多 →
XSS攻击及防范

XSS攻击及防范

XSS攻击及防范 XSS攻击及防范 1 什么是XSS2 XSS类型 2.1 反射型XSS2.2 存储型XSS2.3 DOM型XSS 3 怎么预防XSS 3.1 纯前端渲染3.2 转义HTML3.3 关注高危API3.4 其他措施 1 什么是XSS XSS称为跨站脚本攻击(Cross Site Scripting),它的缩写原…

2026/6/27 20:47:02阅读更多 →
Ansible-NAS:用 Ansible 和 Docker 搭建你的家庭服务器

Ansible-NAS:用 Ansible 和 Docker 搭建你的家庭服务器

文章目录Ansible-NAS:用 Ansible 和 Docker 搭建你的家庭服务器1、 这个项目解决什么问题2、 能跑什么3、 怎么装4、 和 FreeNAS 比有什么区别5、 适合什么人Ansible-NAS:用 Ansible 和 Docker 搭建你的家庭服务器 Ansible-NAS 在 GitHub 上拿到了 3,75…

2026/6/27 22:22:17阅读更多 →
西柚资产管理系统 V0.5 发布:统一身份认证与 AI 智能能力全面升级

西柚资产管理系统 V0.5 发布:统一身份认证与 AI 智能能力全面升级

西柚资产管理系统 V0.5 更新日志 发布日期:2026-06 🚀 重点更新 V0.5 版本重点围绕企业组织集成能力与 AI 智能化能力进行升级,实现统一身份管理、组织架构同步以及智能数据处理能力,为企业资产管理提供更加高效、智能的解决方…

2026/6/27 22:22:17阅读更多 →
吴恩达《深度学习》之看懂集束搜索

吴恩达《深度学习》之看懂集束搜索

我们终于来到了整个序列生成技术的最后一关——集束搜索(Beam Search)。 这个机制,是所有现代大型语言模型(LLM)、机器翻译系统、语音识别系统在最后吐出文本(推理输出)时的临门一脚。 在学集束…

2026/6/27 22:22:17阅读更多 →
高频PCB布线DFM核心准则:从串扰抑制到量产一致性优化

高频PCB布线DFM核心准则:从串扰抑制到量产一致性优化

高频PCB布线绝非简单的连通线路,其DFM设计核心是兼顾信号完整性、电磁兼容性与量产可制造性。低频布线只需满足通断、压降、间距基础要求,而高频布线的线宽、间距、平行长度、走线路径、铺铜方式,都会直接影响阻抗、串扰、插损、辐射等核心指…

2026/6/27 22:22:17阅读更多 →
【运动控制——补充AXIS_REF_SM3】

【运动控制——补充AXIS_REF_SM3】

运动控制——补充AXIS_REF_SM3核心成员变量1. 轴状态与控制 (State & Control)2. 实际值与设定值 (Actual & Set Values)3. 限幅与安全 (Limits & Safety)AXIS_REF_SM3.perfTimers继承关系AXIS_REF_SM3 是 CODESYS SoftMotion 运动控制平台中最核心、最基础的轴接口…

2026/6/27 22:22:17阅读更多 →
InfiniteTalk 源码解析 #5:Wav2Vec2 音频编码:如何把语音变成逐帧 audio embedding

InfiniteTalk 源码解析 #5:Wav2Vec2 音频编码:如何把语音变成逐帧 audio embedding

上一篇我们分析了 InfiniteTalk 的音频预处理流程。在进入模型之前,音频会先经历几步处理:视频抽音频↓ librosa 读取↓ 统一到 16k 采样率↓ 响度归一化↓ 单人或双人音频整理这些步骤的目标是把各种来源的音频统一成稳定的 speech array。但 speech ar…

2026/6/27 22:17:15阅读更多 →
【人工智能】一文搞定到底什么是智能体

【人工智能】一文搞定到底什么是智能体

【人工智能】一文搞定到底什么是智能体 一文搞定到底什么是智能体【人工智能】一文搞定到底什么是智能体一. LM,WorkFlow,Agent分别有什么么不同二. Agent的思考过程是怎样的三. Agent的五个核心部分1)LLM2)Prompt3)Me…

2026/6/27 11:20:40阅读更多 →
嵌入式GUI控件实战:ROTARY、SCROLLBAR、SLIDER原理与应用

嵌入式GUI控件实战:ROTARY、SCROLLBAR、SLIDER原理与应用

1. 嵌入式GUI控件:从原理到实战的深度解析在嵌入式系统开发中,图形用户界面(GUI)的设计与实现往往是项目从“能用”到“好用”的关键一跃。不同于资源充沛的PC或移动平台,嵌入式设备的GUI需要在有限的CPU性能、内存空间…

2026/6/27 5:46:02阅读更多 →
Google AI Studio 300美元额度的真相与实战指南

Google AI Studio 300美元额度的真相与实战指南

1. 这300美金不是“送钱”,而是Google埋下的第一道技术门槛 你看到标题里那个醒目的“$300美金”时,第一反应可能是:又一个免费额度?领完就完事?我亲手试过——这300美金根本不是红包,而是一张入场券&…

2026/6/27 11:20:39阅读更多 →
10分钟AI语音克隆与实时变声:Retrieval-based-Voice-Conversion-WebUI完整指南

10分钟AI语音克隆与实时变声:Retrieval-based-Voice-Conversion-WebUI完整指南

10分钟AI语音克隆与实时变声&#xff1a;Retrieval-based-Voice-Conversion-WebUI完整指南 【免费下载链接】Retrieval-based-Voice-Conversion-WebUI Easily train a good VC model with voice data < 10 mins! 项目地址: https://gitcode.com/GitHub_Trending/re/Retrie…

2026/6/27 0:04:03阅读更多 →
Layerdivider:3分钟AI智能分层,彻底告别手动抠图时代

Layerdivider:3分钟AI智能分层,彻底告别手动抠图时代

Layerdivider&#xff1a;3分钟AI智能分层&#xff0c;彻底告别手动抠图时代 【免费下载链接】layerdivider A tool to divide a single illustration into a layered structure. 项目地址: https://gitcode.com/gh_mirrors/la/layerdivider 还在为复杂的图像分层工作烦…

2026/6/27 0:04:03阅读更多 →
Tomcat中X-Frame-Options配置实战:防御点击劫持的四种方法与最佳实践

Tomcat中X-Frame-Options配置实战:防御点击劫持的四种方法与最佳实践

1. 项目概述&#xff1a;为什么X-Frame-Options是Web安全的“防盗门”&#xff1f;最近在排查一个老项目的安全审计报告时&#xff0c;又被提到了“点击劫持”风险&#xff0c;矛头直指缺失的X-Frame-Options响应头。这已经不是第一次了&#xff0c;很多开发团队&#xff0c;尤…

2026/6/27 0:04:03阅读更多 →