对象存储

  • 对象存储 > 使用指南 > 开发指南 > 管理存储空间 > 空间清单

    空间清单

    最近更新时间: 2025-02-18 18:23:59

    您可以使用对象存储 Kodo 的空间清单功能获取存储空间(Bucket)中指定文件(Object)的大小、存储类型、文件类型等信息。帮助您列举和管理空间中海量文件。


    应用场景

    • 定期审核并输出文件列表及文件相关属性
    • 获取指定目录下文件数量和大小
    • 获取智能分层存储的文件元数据信息,包括智能分层访问层

    具体说明

    • 单个空间通过控制台仅支持配置最多 10 条清单规则
    • 配置清单规则的源空间可以区别于存放清单报告文件的目标空间,但必须属于同一账号下的相同区域
    • 空间被授权者,不支持管理空间清单规则
    • 使用空间清单功能,将依据空间列出的对象数量收费,详情参考 计量项与计费项
    • 清单报告成功生成后,会按标准存储类型上传到在指定空间中,将产生标准存储的存储费用、以及正常读取清单报告文件的流量费用和请求次数的费用

    操作方式

    Kodo支持通过控制台进行空间清单相关设置。本功能当前在公测阶段,您需要 提交工单 申请使用。

    支持的操作方式 参考文档
    控制台 设置空间清单

    清单报告说明

    空间清单规则配置完成后,触发生成清单,Kodo 将按规则在指定目标空间中生成清单报告文件。文件的目录结构如下:

    destination_bucket
     └──destination_prefix/
         └──source_bucket/
             └──inventory_id/
                 ├──YYYY-MM-DDTHH-MMZ/
                 │   ├──manifest.json
                 │   └──manifest.checksum
                 └──data/
                     └──745a29e3-bfaa-490d-9109-32fd6a38hdk1.csv.gz
                     └── ...
    
    目录结构 说明
    destination_prefix/ 该目录根据设置的清单报告名前缀生成。清单报告路径前缀设置为空时,将省略该目录。
    source_bucket/ 该目录根据配置清单报告的源空间名生成。
    inventory_id/ 该目录根据清单任务的规则名称生成。
    YYYY-MM-DDTHH-MMZ/ 该目录是标准的格林威治时间戳,表示开始扫描源空间的时间,例如 2020-05-17T16-00Z。该目录下包含了manifest.json 和 manifest.checksum 文件。
    data/ 该目录下存放了包含源空间中的对象列表以及每个对象的元数据的清单文件,清单文件格式为使用 GZIP 压缩的 CSV 文件。注:
    • 当导出的源 空间中对象数量较多时,为方便用户下载和处理数据,程序会自动将清单文件切分成多个 CSV 压缩文件。CSV 压缩文件按照 uuid.csv.gz、uuid-1.csv.gz、uuid-2.csv.gz 的顺序依次递增。需要从 manifest.json 文件中获取CSV文件列表,然后按照以上顺序依次解压 CSV 文件并读取清单数据。
    • 对象的单条记录信息仅出现在一个清单文件内,不会分布到不同的清单文件。

    清单功能生成的具体文件说明如下:

    manifest 文件

    manifest 文件包含 manifest.json 和 manifest.checksum。每次交付新的清单报告时,均会带有一组新的 manifest 文件。
    manifest.json

    • manifest.json 描述清单报告的位置和其他基本信息

      {
       "source_bucket": "hannahtest",
       "destination_bucket": "hannahtest",
       "creation_timestamp": "1733902989859",
       "file_format": "CSV",
       "file_schema": "Bucket, Key",
       "list_object_count": 1603,
       "filter_object_count": 1602,
       "files": [
       	{
       	"key": "testname/hannahtest/data/b9fae0e4-b793-11ef-a45d-80615f078151-1.csv.gz",
       	"size": 19253,
       	"md5": "da86c9414b182d8f1eb9612abc******"
       	}
              ]
      }
      
    • 各字段说明

      字段名称 说明
      source_bucket 配置清单规则的源空间
      destination_bucket 存放清单文件的目标空间
      creation_timestamp 开始扫描源空间的时间(毫秒)
      file_format 清单文件的格式
      file_schema 清单文件包含的字段
      list_object_count 列出的对象数量,空间中所有或指定前缀的对象数,费用将按此项计费,参见计量项与计费项
      filter_object_count 筛选的对象数量,即最后生成的清单文件里所含的对象个数
      files 包含清单文件的文件名完整路径、文件大小及 MD5 值

    manifest.checksum

    • manifest.checksum 是 manifest.json 文件内容的 MD5

    清单报告

    清单报告存储在 data/ 目录下,包含清单功能导出的文件信息。清单报告示例如下:

    清单报告具体的字段顺序,与 manifest.json 里 file_schema 顺序一致,取决于您配置清单规则时的清单内容字段排列顺序。以上清单报告示例中,各字段按从左到右的顺序说明如下。

    字段名称 说明
    Bucket 空间名称
    Key 文件名
    Size 文件大小,单位 Byte
    StorageClass 文件的存储类型,STANDARD(标准存储)、IA(低频存储)、INTELLIGENT_TIERING(智能分层存储)、ARCHIVE_IR(归档直读存储)、ARCHIVE(归档存储)、DEEP_ARCHIVE(深度归档存储)
    ETag 文件的 ETag
    MD5 文件的 MD5(只有直传的文件才有)
    MimeType 文件类型
    PutTime 文件的上传时间
    IsMultipartUploaded 分片上传状态,TRUE/FALSE
    IntelligentTieringAccessTier 智能分层访问层,FREQUENT_ACCESS(频繁访问层)、INFREQUENT_ACCESS(不频繁访问层)、INSTANT_ACCESS(归档直读访问层)
    EncryptionStatus 加密状态(仅开通服务端加密功能才支持),TRUE/FALSE
    ObjectLockMode 对象锁定模式(仅开通对象锁定功能才支持),COMPLIANCE(合规模式)
    ObjectLockRetainUntilDate 对象保留时间

    常见问题

    1、查询不到清单文件的异常情况

    • 如目标空间不存在,则无法成功上传生成的清单。

    2、清单一致性

    • 导出清单文件的过程中,由于对象的创建、删除或覆盖等操作,可能会导致最终输出的清单列表中不一定包含所有的对象。上传时间早于 manifest.json 文件中 creation_timestamp 字段显示时间的对象会出现在清单文件中;晚于 creation_timestamp 字段显示时间的对象可能不会出现在清单文件中。建议您对清单列表中的对象进行操作之前,先确认指定对象的属性。
    以上内容是否对您有帮助?
  • Qvm free helper
    Close