事件

事件是事件管理工作流中的关键实体,代表需要紧急恢复的服务中断。极狐GitLab 提供用于事件分类、响应和补救的工具。

至少具有访客权限的用户可以访问公开项目的事件。

事件创建

您可以手动或自动创建事件。

手动创建事件

  • 移动到免费版于 13.3 版本。
  • 权限角色变更为从访客到报告者,于 14.5 版本。
  • 自动应用 incident 标签删除于 14.8 版本。

如果您至少拥有报告者,则可以从事件列表或议题列表手动创建事件。

要从事件列表创建事件:

  1. 导航到 监控 > 事件 并选择 创建事件
  2. 使用 incident 模板创建一个新议题。

Incident List Create

要从议题列表创建事件:

引入于 13.4 版本。

  1. 转到 议题 > 列表,然后选择 新建议题
  2. 类型 下拉列表中,选择 事件。页面上仅显示与事件相关的字段。
  3. 根据需要创建事件,然后选择 创建议题 保存事件。

Incident List Create

自动创建事件

至少具有维护者角色,您可以启用极狐GitLab 在触发警报时自动创建事件:

  1. 导航到 设置 > 监控 > 事件 并展开 事件
  2. 选中 创建事件 复选框。
  3. 要自定义事件,请选择议题模板,包括在事件摘要中。
  4. 要向具有开发者角色的用户发送电子邮件通知,请选择 向开发者发送单独的电子邮件通知。电子邮件通知也会发送给具有维护者所有者角色的用户。
  5. 选择 保存修改

通过 PagerDuty webhook 创建事件

引入于 13.3 版本。

您可以使用 PagerDuty 设置一个 webhook,为每个 PagerDuty 事件自动创建一个事件。此配置要求您在 PagerDuty 和极狐GitLab 中进行更改:

  1. 以具有维护者角色的用户身份登录。
  2. 导航到 设置 > 监控 > 事件 并展开 事件
  3. 选择 PagerDuty 集成 选项卡:

    PagerDuty incidents integration

  4. 激活集成,并在极狐GitLab 中保存更改。
  5. 复制 Webhook URL 的值,供后续步骤使用。
  6. 按照 PagerDuty 文档中描述的步骤,将 webhook URL 添加到 PagerDuty webhook 集成。

要确认集成成功,请从 PagerDuty 触发测试事件,确认极狐GitLab 事件从该事件创建。

事件列表

对于至少具有访客权限的用户,可以在项目侧栏中的 监控 > 事件 中找到事件列表。该列表包含以下指标:

Incident List

  • 要按状态过滤事件,请选择事件列表上方的 打开已关闭全部
  • 搜索 - 事件列表支持简单的自由文本搜索,它可以过滤 标题事件 字段。
  • 严重性 - 特定事件的严重性,可以是以下值之一:
    • 严重 - S1
    • 高 - S2
    • 中 - S3
    • 低 - S4
    • 未知

    13.4 版本中引入了事件详情页面上的编辑事件严重性功能:

  • 事件 - 事件的描述,它试图捕获最有意义的数据。
  • 状态 - 事件的状态,可以是以下值之一:
    • 已触发
    • 已确认
    • 已解决

    在专业版中,此字段还链接到事件的待命升级

  • 创建日期 - 创建事件的时间。此字段使用 X time ago 的标准 pattern,但根据用户的区域设置,由日期/时间提示工具支持。
  • 指派人 - 指派给事件的用户。
  • Published - 如果事件发布到状态页面,则显示绿色复选标记 ()。

事件列表显示按事件创建日期排序的事件(引入于 13.3 版本。) 要查看列是否可排序,请将鼠标指向标题。可排序的列会在列名称旁边显示一个箭头。

事件详情

引入于 13.4 版本。

至少拥有访客权限的用户可以查看事件详情页面。导航到项目侧栏中的 监控 > 事件,然后从列表中选择一个事件。

当您对事件采取任何这些操作时,系统会记录系统备注,并将其显示在事件详情视图中:

  • 更新事件的严重性(引入于 13.5 版本。)

摘要

事件摘要部分提供有关事件的关键详细信息和议题模板的内容(如果适用)。事件顶部的高亮栏从左到右显示:

  • 原始警报的链接。
  • 警报开始时间。
  • 事件计数。

在高亮条下方,系统显示一个摘要,其中包括以下字段:

  • 开始时间
  • 严重性
  • full_query
  • 监控工具

可以使用极狐GitLab Flavored Markdown 进一步自定义事件摘要。如果相应的警报为事件提供了 Markdown,则 Markdown 将附加到上述警报字段之后的摘要中。如果为项目配置了事件模板,则模板内容将附加在末尾。

评论显示在主题中,但可以通过切换最近更新视图,按时间顺序显示。

指标

引入于 13.8 版本。

在许多情况下,事件与指标相关联。您可以在指标选项卡中,上传指标图表的屏幕截图:

Incident Metrics tab

上传图像时,您可以将图像与文本或指向原始图表的链接相关联。

Text link modal

如果添加链接,您可以通过单击上传图像上方的超链接访问原始图表。

警报详情

事件在单独的选项卡中显示关联警报的详细信息。要填充此选项卡,必须使用关联警报创建事件。从警报自动创建的事件已填充此字段。

Incident alert details

时间线事件

引入于 15.2 版本,功能标志incident_timeline。在 SaaS 版上启用,在私有化部署版上禁用。

在私有化部署版上,此功能默认不可用。要使其可用,询问管理员启用功能标志 incident_timeline。在 SaaS 上,此功能可用。

事件时间表是事件记录的重要组成部分,向管理者和外部人士提供了事件期间发生的事情,以及为解决该事件而采取的步骤的高级别概述。

查看时间线事件

时间线事件按日期和时间的升序列出。它们按日期分组,并按发生时间的升序排列:

Incident timeline events list

要查看时间线:

  1. 在顶部栏上,选择 菜单 > 项目 并找到您的项目。
  2. 在左侧边栏上,选择 监控 > 事件
  3. 选择一个事件。
  4. 选择 时间线 选项卡。

创建时间线事件

使用表单手动创建时间线事件。

先决条件:

  • 您必须至少具有项目的开发者角色。

要创建时间线事件:

  1. 在顶部栏上,选择 菜单 > 项目 并找到您的项目。
  2. 在左侧边栏上,选择 监控 > 事件
  3. 选择一个事件。
  4. 选择 时间线 选项卡。
  5. 选择 添加新的时间线事件
  6. 填写必填字段。
  7. 选择 保存保存并添加另一个事件

删除时间线事件

您还可以删除时间线事件。

先决条件:

  • 您必须至少具有项目的开发者角色。

要删除时间线事件:

  1. 在顶部栏上,选择 菜单 > 项目 并找到您的项目。
  2. 在左侧边栏上,选择 监控 > 事件
  3. 选择一个事件。
  4. 选择 时间线 选项卡。
  5. 在时间线事件的右侧,选择 更多操作 (),然后选择 删除
  6. 要确认,请选择 删除事件

最近更新视图

引入于 13.5 版本。

要快速查看事件的最新更新,请在评论栏中选择 打开最近更新视图,并按时间顺序(从最新到最旧)显示未主题化的评论:

Recent updates view toggle

SLA 倒计时

引入于 13.5 版本。

您可以对事件启用 SLA(Service Level Agreement)倒计时器,跟踪您与客户持有的 SLA。创建事件时,计时器会自动启动,并显示 SLA 期限到期之前的剩余时间。计时器也每 15 分钟动态更新一次,因此您无需刷新页面即可查看剩余时间。 配置定时器:

  1. 导航至 设置 > 监控
  2. 滚动到 事件 并选择 展开,然后选择 事件设置 选项卡。
  3. 选择 启用距 SLA 时间倒计时器
  4. 以 15 分钟为增量设置时间限制。
  5. 选择 保存修改

启用 SLA 倒计时器后,距 SLA 时间: 属性将显示为事件列表中的一列,并显示为新创建事件的字段。如果事件在 SLA 结束之前没有关闭,系统会在事件中添加一个 missed::SLA 标记。

事件操作

有不同的操作可用于帮助对事件进行分类和响应。

指派事件

将事件分配给积极响应的用户。选择右侧栏中的 编辑,选择或清除指派人。

关联里程碑

通过选择右侧栏中里程碑功能旁边的 编辑,将事件与里程碑相关联。

更改严重性

有关可用严重级别的完整描述,请参阅事件列表。 在右侧栏中选择 编辑,更改事件的严重性。

您还可以使用 /severity 快速操作更改严重性。

添加待办事项

为要在待办事项列表中跟踪的事件添加待办事项。选择右侧栏顶部的 添加待办事项,添加待办事项。

更改事件状态

  • 引入于 14.9 版本,功能标志名为 incident_escalations。默认禁用。
  • 在 SaaS 版和私有化部署版上启用于 14.10 版本。
  • 功能标志 incident_escalations 删除于 15.1 版本。

对于具有开发者角色或更高角色的用户,在事件右侧栏的状态部分中选择编辑,然后选择一个状态。新事件的默认状态是已触发

在使用专业版的项目中,待命响应者可以通过更改状态来响应事件呼叫。将状态设置为:

  • 已解决:使警报的所有待命呼叫静默。
  • 已确认:根据项目的升级策略,限制待命呼叫。
  • 已解决改为已触发:重新启动从头开始升级的警报。

在 15.1 及之前的版本,更新从警报创建的事件的状态也会更新警报状态。在 15.2 及更高版本,警报状态是独立的,不会随着事件状态的变化而更新。

更改升级策略

  • 引入于 14.9 版本,功能标志名为 incident_escalations。默认禁用。
  • 在 SaaS 版和私有化部署版上启用于 14.10 版本。
  • 功能标志 incident_escalations 删除于 15.1 版本。

对于具有开发者角色或更高角色的用户,请在事件右侧栏的 升级策略 部分中选择 编辑,然后选择一个策略。默认情况下,新事件未选择升级策略。

选择升级策略会将事件状态更新为 已触发,并开始将事件升级到待命响应者。 取消选择升级策略会停止升级。升级开始后,请参阅事件状态,管理待命呼叫。

在 15.1 及之前的版本,从警报创建的事件的升级策略反映警报的升级策略,且无法更改。在 15.2 及更高版本,事件的升级策略是独立的,可以更改。

从 Slack 管理事件

Slack 指令允许您在不离开 Slack 的情况下,控制极狐GitLab 并查看内容。

了解如何设置 Slack 指令,以及如何使用可用的指令

在事件中嵌入指标

您可以在任何使用极狐GitLab Markdown 的地方嵌入指标,例如描述、议题评论和合并请求。嵌入指标可帮助您在讨论事件或性能问题时共享它们。 您可以通过复制并粘贴到指标仪表盘的链接,将仪表盘直接输出到极狐GitLab 中的任何议题、合并请求、史诗或任何其它 Markdown 文本字段。

您可以在事件和议题模板中嵌入极狐GitLab 的指标和 Grafana 指标。

通过恢复警报自动关闭事件

  • 对 Prometheus 集成的支持引入于 12.5 版本。
  • 对 HTTP 集成的支持引入于 13.4 版本。

如果至少具有维护者角色,您可以启用极狐GitLab 在收到恢复警报时自动关闭事件:

  1. 导航到 设置 > 监控 > 事件 并展开 事件
  2. 选中 自动关闭相关事件 复选框。
  3. 选择 保存修改

当系统收到恢复警报时,它会关闭相关的事件。 此操作被记录为事件的系统消息,表明它已被极狐GitLab 警报机器人自动关闭。