5 consejos que pueden ayudar a que tus modelos sobrevivan en producción
Cuando comencé en ciencia de datos, mi atención se centraba principalmente en mejorar habilidades técnicas como programación y creación de modelos. Después de unos años, mi interés se centró en la implementación de modelos y MLOps, lo que me llevó a mi transición a la ingeniería de aprendizaje automático. Hablar en público y hacer presentaciones siempre han sido parte del trabajo, especialmente cuando se comunican resultados a una audiencia no técnica. Sin embargo, las cosas cambiaron el año pasado cuando comencé a trabajar en proyectos más complejos con posibles riesgos financieros o de reputación para las empresas contratantes.
En este punto, los modelos son aprobados por un comité de revisores técnicos y no técnicos antes de entrar en producción. Esto requiere documentación adecuada, que abarque todo, desde la arquitectura y la metodología de capacitación hasta los informes de rendimiento y el historial de pruebas. Esto significa que tener un buen desempeño no fue suficiente; Tuve que convencer a otros, desde científicos de datos hasta expertos en evaluación de riesgos, de que mis modelos no sólo eran eficaces sino también seguros.
Básicamente, tengo que aprender a venderlos.
Iniciar el proceso de detallar mis modelos inicialmente sirvió como un requisito importante para la validación, pero rápidamente se convirtió en una rutina incorporada en mi enfoque, incluso en proyectos personales. En este artículo, mi objetivo es compartir cinco ideas valiosas derivadas de mi propia experiencia en documentación, que pueden ayudarle a crear la suya propia.
Esta es la base de todos sus documentos. Cuando comienzas a desarrollar un modelo, participas en un proceso de prueba y error en el que experimentas con varios preprocesamientos, arquitecturas de modelos, hiperparámetros e ingeniería de características. Le recomiendo encarecidamente que registre todo lo que haga; no es necesario que muestre todo lo que vio, pero es posible que se le solicite que proporcione una explicación de las decisiones que tomó durante el desarrollo.
Por ejemplo, es posible que haya notado que los modelos XGBoost a menudo superan a los RandomForests en su caso de uso: si tiene pruebas que muestran eso en sus entradas, puede extraerlas fácilmente si se le pide que dé un ejemplo o muestre eso.