SiriusXM

Como parte del equipo ERE (Ecosystem Reliability Engineering), trabajé en la producción, implementación y mantenimiento de la infraestructura de pruebas y herramientas de observación para garantizar el funcionamiento y el tiempo de actividad óptimos de todos los servicios de SiriusXM. Se redujeron las alertas del servicio de la plataforma en un 83 %, lo que mejoró la reducción del registro de errores en 2 millones por semana y aumentó la capacidad de acción de los desarrolladores en caso de alertas. Se implementaron mecanismos de detección de cuellos de botella y de detección de anomalías en el rendimiento, junto con una mejor resiliencia del escalado automático.

SiriusXM es un proyecto enorme alojado principalmente en AWS y administrado a través de CDK basado en Typescript. Utilizando Datadog como herramienta principal de observabilidad y una rota on-call para implementaciones de producción.