ceph副本io性能-分会游戏

ceph副本io性能

钟逸 27 2025-01-24 20:00:21

Ceph性能瓶颈分析与优化二部曲:rbd

1、Ceph性能瓶颈分析与优化面临挑战，因其优化策略需根据特定环境灵活调整，不可复制。一般而言，通过分析Ceph的IO日志或监控指标，识别性能瓶颈点，进而针对性优化。优化前需对Ceph的IO路径有深入理解，同时关注日志与指标的全面性，必要时自行补充监控。

2、在Ceph系统中，RBD（RADOS Block Device）是用于管理存储设备和提供块级访问接口的重要组件。客户端请求操作主要通过Librados与OSDC实现，它们位于Ceph客户端较为底层的位置，负责基本操作接口的提供。Librados包括核心管理类RadosClient和对特定Pool进行管理的IoCtxImpl模块。

3、Ceph的核心特点包括高可靠、高扩展性、高性能以及高度自动化。相较于其他存储方案，Ceph的优势主要体现在其基于对象存储的架构上，这使得它能够实现数据的高效、可靠和可扩展存储。Ceph架构主要由四个层次构成：基础存储系统RADOS、基础库LIBRADOS、上层接口RADOSGW、RBD和CEPHFS。

4、Ceph是一套高性能，易扩展的，无单点的分布式文件存储系统，基于Sage A. Weil的论文开发，主要提供以下三个存储服务：对象存储（Object Storage），既可以通过使用Ceph的库，利用C， C++， Java， Python， PHP代码，也可以通过Restful网关以对象的形式访问或存储数据，兼容亚马逊的S3和OpenStack的Swift。

5、两个OSD都分配了2个CPU资源。Crimson OSD的随机读取性能大约提高了25%，随机写入情况下的IOPS大约比传统OSD高24%。进一步的分析表明，在随机写的情况下，CPU的利用率很低，大约20%的CPU被消耗在频繁的查询中，这表明Crimson OSD可能不是当前的瓶颈。

AI训练存储基座之一:深度学习(AI)中的io模式及性能优化

1、在评估TensorFlow与PyTorch在本地NVMe存储上的IO模式时，通过收集数据观察到TensorFlow的队列长度和等待时间可能较PyTorch更低，这可能是由于TensorFlow对IO操作进行了优化。最终，通过理解深度学习训练中的IO模式与性能优化策略，研究人员可以显著加快其工作速度。

2、工智能（Artificial Intelligence）是研究、开发用于模拟、延伸和扩展人智能的理论、方法、技术及应用系统的一门新技术科学。人工智能领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能（Artificial Intelligence），英文缩写为AI。

3、听说华为mate10是世界第一款AI智能手机 AI其实很早就有了，AI是人工智能英文的首字母拼写。华为Mate 10搭载了全球首款移动AI芯片麒麟970，除了常规的CPU和GPU以外，还加入了NPU（Neural Neork Processing Unit神经网络处理器），可以通过不断的感知与学习，让手机变得越来越智能。

4、Apache基金会将其列为孵育计划。所以当Salesforce利用PredictionIO技术来提升它的机器学习能力时，成效将会同步出现在开源版本中。它可以帮助用户创建带有机器学习功能的预测引擎，这可用于部署能够实时动态查询的Web服务。

Ceph架构简介及使用

1、Ceph是一个统一的分布式存储系统，旨在提供优异的性能、可靠性和可扩展性。

2、Ceph架构主要由四个层次构成：基础存储系统RADOS、基础库LIBRADOS、上层接口RADOSGW、RBD和CEPHFS。其中，RADOS是Ceph存储集群的基础，提供了对象存储服务，支持多种编程语言的访问。LIBRADOS则是RADOS的接口库，允许应用程序与RADOS系统进行交互。

3、Ceph是一个开源的分布式存储系统，设计来存储大量的数据。它是一个可靠、高性能、可扩展和容易管理的存储解决方案，经常被用于处理大规模的数据存储需求，特别是在云计算环境中。由于其分布式架构，Ceph可以在多台服务器之间分散存储数据，确保数据的可靠性和容错性。

4、Ceph系统架构分为四个层次：RADOS基础存储系统、LIBRADOS基础库、高层应用接口和应用层。RADOS是Ceph的底层功能模块，实现无限可扩展的对象存储服务，由OSD和Monitor组成，实现分布式和高扩展性。LIBRADOS为应用层提供与RADOS交互的接口，并支持多种编程语言。

很多人吐槽,ceph分布式存储不如磁盘阵列稳定,那么三副本的

1、首先，三副本分布式存储在性能方面可能遇到的问题包括性能不稳定和延迟增加。以Ceph为例，其将多个存储基本单元，即Placement Group（PG），封装为一个OSD，每个OSD直接对应一个机械硬盘HDD。主流的7200转HDD，受限于机械臂寻址限制，单盘读写性能仅为120 IOPS左右。

2、高可扩展性：Ceph 能够水平扩展，支持从几台节点扩展到成千上万的节点，而不会显著影响性能。这是由于其分布式架构的设计，支持自动数据分布和负载均衡。

3、Ceph版本概览 Ceph是一个开源的分布式存储系统，随着不断的开发和完善，已经推出了多个版本。每个版本都有新的特性和改进，但同时也可能带来一些不稳定因素。Ceph的稳定版本特点具体到Ceph的某个版本是否稳定，很大程度上取决于该版本的测试周期、社区反馈以及修复bug的速度。

【ceph】scrub&deep-scrub优化

1、Scrub是 Ceph 集群副本进行数据扫描的操作，用于检测副本间数据的一致性，包括 scrub 和 deep-scrub。其中scrub 只对元数据信息进行扫描，相对比较快；而deep-scrub 不仅对元数据进行扫描，还会对存储的数据进行扫描，相对比较慢。

2、检测底层对象是否一致，开启scrub和deep-scrub后性能会降低很多，因为在做scrub的时候，ceph会对这个chunk进行加锁，这个也就是为什么有slow request，读锁和写锁都会进行。

3、ceph pg repair这一操作会先进行pg scrub，得到该PG中不一致的对象，然后再进行recovery。pg scrub时主副本和从副本均会进行资源预约，只有当scrubs_pending + scrubs_active _conf-osd_max_scrubs时scrub才能继续进行，也即repair才能进行，否则，repair会失效。

4、在ceph14的开发版里有 ceph osd perf query add，ceph osd perf query remove，ceph osd perf counters get 等命令，用于收集ceph14内定义的client_id，client_address，pool_id，namespace，osd_id，pg_id，object_name，snap_id这八类io数据。

5、从日志中可以知道，是 rbd_data.1349f035c101d0000000000000001 这个对象的属性 _ 丢失了，所以在 scrub 的过程中产生了 error 。执行 ceph pg repair 命令修复问题 PG 。检查 Ceph 集群是否恢复到 HEALTH_OK 状态。

ceph分布式存储简介

1、分布式存储是一种在多台服务器上整合存储资源，形成一个统虚拟的存储系统的技术。在该系统中，用户可以像使用单一存储设备一样，访问和管理分布在网络中的多个物理存储设备。Ceph是一种高性能、高可靠性的分布式存储系统，它能够提供文件系统、块存储和对象存储服务。

2、Ceph是一个开源分布式存储系统，具有高扩展性、高性能、高可靠性的优势，由C++语言开发，支持块存储、文件存储和对象存储。Ceph被广泛应用于云计算和大数据领域，因其稳定性、可靠性与可扩展性，成为了众多云平台的标准存储选择。

3、Ceph是一种分布式存储系统，它由Sage Weil在2004年开发，基于开源协议在2006年开源。Ceph能够将多台服务器组成一个超大集群，整合这些机器中的磁盘资源，形成一个支持PB级别的资源池，满足客户端应用的需求。Ceph官网为：ceph.com，官方文档在docs.ceph.com。

4、Ceph是一种分布式存储系统。Ceph是一个开源的分布式存储系统，旨在提供高性能、可扩展性和容错能力。以下是关于Ceph的详细介绍：概述 Ceph是专注于提供海量数据存储和可扩展性能的分布式存储系统。它的设计目标是为了满足现代数据中心的需求，如高性能计算、云计算和大规模虚拟化环境等。

5、Ceph 是一个开源的分布式存储系统，广泛用于提供高可扩展性、容错性和高性能的存储解决方案。它具有以下几个主要优势：高可扩展性：Ceph 能够水平扩展，支持从几台节点扩展到成千上万的节点，而不会显著影响性能。这是由于其分布式架构的设计，支持自动数据分布和负载均衡。

版权声明：本站文章如无特别标注，均为本站原创文章，于2025-01-24，由钟逸发表，共 3745个字。
转载请注明出处：钟逸，如有疑问，请联系我们
本文地址：http://www.zgxzjxh.com/91870.html