El libro señala que el término «ciencia de datos» no se utilizó ampliamente hasta 2010. ¿Qué usos actuales de la ciencia de datos no podrías imaginar en 2010?
Base: La respuesta más obvia son las redes neuronales profundas, un enfoque de inteligencia artificial para construir una computadora inspirado en el modelado de las conexiones neuronales en el cerebro. Las redes neuronales profundas tienen muchas aplicaciones y están teniendo un impacto disruptivo y transformador en casi todos los sectores. Recién en 2012, con la llegada del big data y la big computación, la comunidad investigadora y luego el sector privado vieron cómo estas redes podían realizar tareas de IA como el reconocimiento de voz y la clasificación de imágenes que se habían estudiado desde los años 1960. El éxito se debió a una gran cantidad de datos digitales, datos utilizados para entrenar redes neuronales profundas.
Wiggins: Además de eso, agregaría la difusión real de la ciencia de datos en diferentes industrias. La descripción del trabajo de «ciencia de datos» en LinkedIn y Facebook fue prominente en la primera década del nuevo milenio; William Cleveland de AT&T ya utilizó el término en un artículo de 2001 para sugerir un nuevo campo. Pero en 2010 fue posible entender los datos de una manera que transforma su negocio no sólo para las «grandes empresas tecnológicas» como AT&T, Facebook o LinkedIn, sino para una amplia variedad de empresas. Definitivamente ha sido transformador Los New York Times. De manera similar, varios campos académicos están siendo transformados por el aprendizaje automático. En 2010 quedó claro que el aprendizaje automático está teniendo un gran impacto en varias ramas de las ciencias naturales, como la biología computacional, pero ahora casi todos los campos académicos tienen un lugar para la actividad de investigación sobre cómo el aprendizaje automático abre nuevas preguntas y respuestas.
Su libro describe algunas de las promesas y peligros clave de la ciencia de datos. Si tuvieras que nombrar la mayor promesa de la ciencia de datos (algo que aún no ha sucedido y que te entusiasma más), ¿cuál sería?
Base: La mayor promesa de la ciencia de datos es resolver problemas sociales como la atención médica y el cambio climático. Podemos utilizar imágenes médicas, registros médicos y datos genéticos para predecir mejor si alguien desarrollará una enfermedad o incluso cómo podría responder a un tratamiento en particular. Podemos utilizar el aprendizaje automático y simulaciones basadas en la física para construir mejores modelos climáticos. Se puede hacer mucho más a medida que vemos las primeras etapas del uso de la inteligencia artificial y la ciencia de datos para abordar estos desafíos.
El mayor desafío es resolver el problema de la justicia. Por ejemplo, un juez individual puede decidir de manera diferente según la hora del día y diferentes jueces pueden decidir de manera diferente según sus opiniones. Al utilizar herramientas automatizadas, se espera aliviar esas diferencias de jurisdicción. Sin embargo, las técnicas actuales de IA, como las redes neuronales profundas, dependen de grandes cantidades de datos para construir un sistema de decisión automatizado. Si se utilizan datos históricos para generar este sistema, entonces capturará y reflejará los mismos juicios humanos del pasado. Lo que hemos descubierto es que es técnica y filosóficamente difícil construir sistemas «justos».
Actualmente mantengo una agenda de investigación llamada «IA confiable», que es un llamado a las armas para que las tres comunidades de ciencias de la computación (la comunidad de IA, la comunidad de ciberseguridad y la comunidad de métodos formales) trabajen juntas para abordar la promesa como así como los peligros de la IA. .
¿Qué vas a enseñar en Columbia este año?
Base: En la primavera de 2019 impartí un curso de posgrado sobre tecnologías de protección de la privacidad. Basándome en mi trabajo en Microsoft, quería que nuestros estudiantes supieran que existen soluciones líderes en la industria para abordar los problemas de privacidad. Estas soluciones informáticas generalizadas incluyen hardware, criptografía, estadística y matemáticas. Estas ideas llegaron al capítulo 10 de nuestro libro.
Wiggins: En el otoño imparto el curso final para estudiantes de matemáticas aplicadas, trabajo con grupos de estudiantes para realizar investigaciones originales sobre temas de interés y las presento a mis compañeros. A lo largo de las décadas que he impartido esta clase, cada vez más proyectos han girado en torno a datos, aprendizaje automático e impacto de datos. Por ejemplo, este trimestre tuvimos presentaciones sobre manipulación y modelos matemáticos de la inmigración. Los estudiantes pueden realizar análisis que no podían hacer hace años con excelentes métodos de aprendizaje automático de código abierto; Además, los estudiantes son mucho más conscientes de las implicaciones éticas de estos métodos. Es constantemente una lección en la que los alumnos me enseñan el futuro.
En la primavera, el profesor Matt Jones y yo volveremos a impartir nuestra clase «Datos: pasado, presente y futuro». Tomar esta clase realmente me abrió los ojos a la apreciación histórica de los datos y a cómo nuestro mundo está moldeado por datos y algoritmos basados en datos. Una lección aquí es que el futuro está en nuestras manos, no tienen otro destino que el que hacemos con ellos. En clase, lo discutimos como un juego inestable de tres jugadores entre empresas, gobiernos y las personas que proporcionan datos y habilidades a estas empresas. Soy optimista de que nuestros estudiantes, tanto tecnólogos como humanistas, estén tan comprometidos en comprender los datos y nuestro papel en la configuración del futuro de los datos.