阿里云 OceanBase 可观测最佳实践
阿里云 OceanBaseOceanBase 数据库是蚂蚁集团不基于任何开源产品,完全自研的原生分布式关系数据库软件,在普通硬件上实现金融级高可用,具备卓越的水平扩展能力,全球首家通过 TPC-C 标准测试的分布式数据库,单集群规模超过 1500 节点。产品具有云原生、强一致性、高度兼容 MySQL 等特性,承担支付宝 100% 核心链路,在国内几十家银行、保险公司等金融客户的核心系统中稳定运行。OceanBase 具有数据强一致、高可用、高性能、在线扩展、高度兼容 SQL 标准和主流关系型数据库、低成本等特点。OceanBase 至今已成功应用于支付宝全部核心业务:交易、支付、会员和账务等系统以及阿里巴巴淘宝(天猫)收藏夹和P4P 广告报表等业务。
OceanBase 监控是金融级分布式数据库的“生命体征仪”,只有实时掌握集群、租户、节点、会话四层 5 秒级指标,才能在秒级发现副本漂移、SQL 抖动或节点故障,避免级联雪崩;它直接决定能否兑现“三地五中心”零数据丢失承诺,是业务连续性与合规审计的底线保障。
观测云观测云是一款专为 IT 工程师打造的全链路可观测产品,它集成了基础设施监控、应用程序性能监控和日志管理,为整个技术栈提供实时可观察性。这款产品能够帮助工程师全面了解端到端的用户体验追踪,了解应用内函数的每一次调用,以及全面监控云时代的基础设施。此外,观测云还具备快速发现系统安全风险的能力,为数字化时代提供安全保障。
采集器配置登录观测云控制台点击【集成】菜单,选择【云账号管理】点击【添加云账号】,选择【阿里云】,填写界面所需的信息,如之前已配置过云账号信息,则忽略此步骤点击【测试】,测试成功后点击【保存】,如果测试失败,请检查相关配置信息是否正确,并重新测试点击【云账号管理】列表上可以看到已添加的云账号,点击相应的云账号,进入详情页点击云账号详情页的【集成】按钮,在未安装列表下,找到阿里云 OceanBase,点击【安装】按钮,弹出安装界面安装即可。关键指标指标名
描述
单位
active_memstore_used
当前活跃 MemStore 已使用内存
字节
active_session
活跃会话数
个
all_session
总会话数
个
block_cache_hit_ratio
Block Cache 命中率
%
block_cache_req_total
Block Cache 总请求数
次
block_cache_size
Block Cache 大小
字节
bloom_filter_cache_hit_ratio
Bloom Filter Cache 命中率
%
bloom_filter_cache_req_total
Bloom Filter Cache 总请求数
次
bloom_filter_cache_size
Bloom Filter Cache 大小
字节
client_connections
客户端连接数
个
clog_cache_hit_ratio
Clog Cache 命中率
%
clog_cache_req_total
Clog Cache 总请求数
次
clog_cache_size
Clog Cache 大小
字节
clog_trans_log_total_size
事务日志总大小
字节
cpu_percent
CPU 使用率
%
io_byte
IO 总字节数
字节
io_count
IO 总次数
次
io_read
读 IO 总字节数
字节
io_read_byte
读 IO 字节数
字节
io_read_count
读 IO 次数
次
io_read_rt
读 IO 平均响应时间
毫秒
io_read_size
读 IO 平均大小
字节
io_rt
IO 平均响应时间
毫秒
io_size
IO 平均大小
字节
io_write
写 IO 总字节数
字节
io_write_byte
写 IO 字节数
字节
io_write_count
写 IO 次数
次
io_write_rt
写 IO 平均响应时间
毫秒
io_write_size
写 IO 平均大小
字节
load_1
1 分钟系统负载
无
location_cache_hit_ratio
Location Cache 命中率
%
location_cache_req_total
Location Cache 总请求数
次
major_freeze_trigger
触发 Major Freeze 次数
次
memory_buffers
缓冲区内存
字节
memory_free
空闲内存
字节
memory_percent
内存使用率
%
memstore_limit
MemStore 上限
字节
memstore_percent
MemStore 使用率
%
memstore_write_lock_fail_count
MemStore 写锁失败次数
次
memstore_write_lock_succ_count
MemStore 写锁成功次数
次
net_recv
网络接收字节数
字节
net_send
网络发送字节数
字节
net_throughput
网络吞吐量
字节/秒
ob_background_waitevent_count
后台等待事件数
次
ob_clog_disk_percent
Clog 磁盘使用率
%
ob_clog_io
Clog IO 次数
次
ob_clog_io_byte
Clog IO 字节数
字节
ob_clog_io_time
Clog IO 时间
毫秒
ob_clog_io_util
Clog IO 利用率
%
ob_clog_ls_max_replayed_scn
最大回放 SCN
无
ob_cpu_percent
OB CPU 使用率
%
ob_data_disk_percent
数据磁盘使用率
%
ob_data_disk_used_size
数据磁盘已用大小
字节
ob_data_io
数据 IO 次数
次
ob_data_io_byte
数据 IO 字节数
字节
ob_data_io_time
数据 IO 时间
毫秒
ob_data_io_util
数据 IO 利用率
%
ob_data_required_size
数据需求大小
字节
ob_host_real_time_iops
实时 IOPS
次/秒
ob_host_real_time_throughput
实时吞吐量
字节/秒
ob_no_idle_waiting_time
非空闲等待时间
毫秒
ob_process_exists
OB 进程是否存在
布尔
ob_sql_event
SQL 事件数
次
ob_sql_event_in_parse
SQL 解析中事件数
次
ob_sql_event_in_pl_parse
PL 解析中事件数
次
ob_sql_event_in_plan_cache
Plan Cache 中事件数
次
ob_sql_event_in_px_execution
并行执行中事件数
次
ob_sql_event_in_sequence_load
序列加载中事件数
次
ob_sql_event_in_sql_execution
SQL 执行中事件数
次
ob_sql_event_in_sql_optimize
SQL 优化中事件数
次
ob_tenant_data_size
租户数据大小
字节
ob_tenant_disk_used_percentage
租户磁盘使用率
%
ob_tenant_log_disk_total_bytes
租户日志磁盘总大小
字节
ob_tenant_log_disk_used_bytes
租户日志磁盘已用大小
字节
ob_tenant_memory_percent
租户内存使用率
%
ob_tenant_server_data_size
租户在 Server 上的数据大小
字节
ob_tenant_server_required_size
租户在 Server 上的需求大小
字节
ob_waitevent_count
等待事件数
次
ob_worktime
工作时间
毫秒
opened_cursors_count
打开的游标数
个
plan_cache_hit_ratio
Plan Cache 命中率
%
plan_cache_size
Plan Cache 大小
字节
qps
每秒查询数
次/秒
qps_rt
查询平均响应时间
毫秒
request_dequeue_count
请求出队数
次
request_enqueue_count
请求入队数
次
request_queue_time
请求排队时间
毫秒
row_cache_hit_ratio
Row Cache 命中率
%
row_cache_req_total
Row Cache 总请求数
次
row_cache_size
Row Cache 大小
字节
rpc_packet_in
入 RPC 包数
包
rpc_packet_in_rt
入 RPC 包平均响应时间
毫秒
rpc_packet_out
出 RPC 包数
包
rpc_packet_out_rt
出 RPC 包平均响应时间
毫秒
server_connections
Server 连接数
个
slow_sql_count
慢 SQL 数
条
sql_all_count
总 SQL 数
条
sql_all_rt
SQL 平均响应时间
毫秒
sql_all_rt_p_90
SQL 90分位响应时间
毫秒
sql_all_rt_p_95
SQL 95分位响应时间
毫秒
sql_all_rt_p_99
SQL 99分位响应时间
毫秒
sql_delete_count
DELETE 语句数
条
sql_distributed_count
分布式 SQL 数
条
sql_insert_count
INSERT 语句数
条
sql_insert_rt
INSERT 平均响应时间
毫秒
sql_insert_rt_p_90
INSERT 90分位响应时间
毫秒
sql_insert_rt_p_95
INSERT 95分位响应时间
毫秒
sql_insert_rt_p_99
INSERT 99分位响应时间
毫秒
sql_local_count
本地 SQL 数
条
sql_other_count
其他 SQL 数
条
sql_other_rt
其他 SQL 平均响应时间
毫秒
sql_other_rt_p_90
其他 SQL 90分位响应时间
毫秒
sql_other_rt_p_95
其他 SQL 95分位响应时间
毫秒
sql_other_rt_p_99
其他 SQL 99分位响应时间
毫秒
sql_remote_count
远程 SQL 数
条
sql_replace_count
REPLACE 语句数
条
sql_select_count
SELECT 语句数
条
sql_select_rt
SELECT 平均响应时间
毫秒
sql_select_rt_p_90
SELECT 90分位响应时间
毫秒
sql_select_rt_p_95
SELECT 95分位响应时间
毫秒
sql_select_rt_p_99
SELECT 99分位响应时间
毫秒
sql_update_count
UPDATE 语句数
条
sql_update_rt
UPDATE 平均响应时间
毫秒
system_event_commit_count
提交类系统事件数
次
system_event_commit_waites
提交类等待事件数
次
system_event_concurrency_count
并发类系统事件数
次
system_event_concurrency_waites
并发类等待事件数
次
system_event_configuration_count
配置类系统事件数
次
system_event_configuration_time_waites
配置类等待事件数
次
system_event_network_count
网络类系统事件数
次
system_event_network_waites
网络类等待事件数
次
system_event_other_count
其他系统事件数
次
system_event_other_time_waites
其他等待事件数
次
system_event_system_io_count
系统 IO 事件数
次
system_event_system_io_waites
系统 IO 等待事件数
次
system_event_user_io_count
用户 IO 事件数
次
system_event_user_io_waites
用户 IO 等待事件数
次
total_memstore_used
MemStore 总使用量
字节
tps
每秒事务数
次/秒
trans_commit_log_count
事务提交日志数
次
trans_commit_log_sync_rt
事务提交日志同步耗时
毫秒
transaction_commit_count
事务提交数
次
transaction_commit_rt
事务提交耗时
毫秒
transaction_count
事务总数
次
transaction_multi_partition_count
跨分区事务数
次
transaction_partition_count
事务涉及分区数
个
transaction_rollback_count
事务回滚数
次
transaction_rollback_rt
事务回滚耗时
毫秒
transaction_rt
事务平均响应时间
毫秒
transaction_single_partition_count
单分区事务数
次
transaction_timeout_count
事务超时数
次
uptime
运行时长
秒
wait_event_count
等待事件总数
次
wait_event_rt
等待事件平均耗时
毫秒
场景视图登录观测云控制台,点击「场景」 -「新建仪表板」,输入 “”, 选择 “阿里云 OceanBase”,点击 “确定” 即可添加视图:
监控器(告警)观测云内置了监控器模板,可以选择从模版创建监控器,并开启适合业务的监控器以及时通知相关成员关注问题,触发条件、频率等信息可以依据实际业务进行调整。
登录观测云控制台,点击「监控」 -「新建监控器」,输入 “OceanBase”, 选择对应的监控器,点击 “确定” 即可添加。
总结观测云集成阿里云 OceanBase,实时采集性能、租户、资源等指标与慢查询日志,提供统一可视化监控与告警,助力高效运维。
页:
[1]