#DatosExtremos
Explore tagged Tumblr posts
Text
Entrenamiento Extremo de Datos 2017

En SocialTIC trabajamos con actores de cambio (principalmente activistas, organizaciones de la sociedad civil y medios independientes) para reforzar su uso estratégico de las nuevas tecnologías y de la información. En materia de datos, hemos impulsado la apertura de datos, la creación de la comunidad de escueladedatos.org así como frecuentes espacios de formación e intercambio entre usuarios de datos.
Lecciones del 1er Entrenamiento Extremo de datos
En el 2016 vimos la necesidad de contar con apuestas de periodismo de datos más ambiciosas que no sólo cumplieran con estándares internacionales de análisis y narrativas sino que además crearan propuestas de alto impacto para audiencias latinoamericanas. Con este reto y el apoyo de colegas especializados, invitamos a 10 periodistas a aprender, reinventarse críticamente y generar trabajos periodísticos de vanguardia basados en datos y nuevas tecnologías. Fue así como lanzamos el primer Entrenamiento de Datos Extremos para Periodistas. La primera generación que surgió de este primer entrenamiento datero nos dejó muchas lecciones y aprendizajes. La currícula, documentación de cada sesión, ejercicios de autoestudio, fotos y hasta los gifs que buscaron darle un tono simpático a cada tema técnico están documentados en el blog datosextremos.tumblr.com
Entrenamiento de Datos Extremos - 2017
Este 2017 queremos apoyar nuevamente la formación y transformación de actores de cambio y equipos para que incorporen el análisis y visualización de datos como elemento de trabajo que fortalezca sus capacidades analíticas, tecnológicas y de vinculación con comunidades especializadas.
Este segundo Entrenamiento Extremo de Datos tiene el objetivo de formar a 10 periodistas, activistas o especialistas de la sociedad civil en México que tengan la ambición de realizar reportajes, investigaciones o campañas basados en datos.
La naturaleza de este espacio de aprendizaje es un formato intensivo, donde se puedan significativamente incrementar sus capacidades de extracción, generación, análisis, visualización y narrativa de datos para aplicarlas en sus propios proyectos a corto plazo. Se busca que las y los participantes terminen este entrenamiento intensivo logrando lo siguiente: - Capacidad intermedia a avanzada en extracción, generación, análisis, visualización y narrativa de datos - Visión crítica del potencial de estándares uso de datos y plataformas de narrativas de la información - Visión propia del rol de los datos y diseño de la información para su propio trabajo - Conceptualización de un primer proyecto ambicioso y vanguardista basado en datos El entrenamiento está estructurado en 6 sesiones presenciales durante el mes de febrero los jueves de 7pm a 10pm y los sábados de 9am a 1pm abordando lo siguientes temas:
.tg {border-collapse:collapse;border-spacing:0;} .tg td{font-family:Arial, sans-serif;font-size:14px;padding:10px 5px;border-style:solid;border-width:1px;overflow:hidden;word-break:normal;} .tg th{font-family:Arial, sans-serif;font-size:14px;font-weight:normal;padding:10px 5px;border-style:solid;border-width:1px;overflow:hidden;word-break:normal;} .tg .tg-7fle{font-weight:bold;background-color:#efefef;text-align:center;vertical-align:top} .tg .tg-9hbo{font-weight:bold;vertical-align:top} .tg .tg-yw4l{vertical-align:top}
Tema Contenidos Formatos y estructuras de datos 2 febrero 2017 - Organización de la información - Formatos de datos - Portales de datos abiertos - Estructuras de información - Libros de códigos - Metadata Extracción de datos 4 febrero 2017 - Extracción de datos en formatos PDF - Información en páginas web - Extracción de datos en formatos JPG - Crawlers y código Limpieza de datos 9 febrero 2017 - Tipos de errores - Orden de datos - Reestructura de datos - Técnicas de limpieza - Limpieza usando hojas de cálculo - Limpieza usando OpenRefine Análisis de datos 11 febrero 2017 - Introducción a la estadística para el periodismo - Porcentajes - Números relativos vs absolutos - Desviaciones - Promedio, moda y mediana Visualización y Narrativas basadas en datos 16 febrero 2017 - Tipos de gráficas - Usos y aplicativos gráficos - Errores de interpretación y estadísticos - Uso de colores y diseño en gráficas - Herramientas para visualización estática y dinámica - Narrativa interactiva vs estática - Evaluación de concepto y comprensión UX y tecnología web 18 febrero 2017 - Experiencia de usuario - Organización y uso del espacio - Tipografía - Iconografía - Accesibilidad - Navegadores y responsividad
Cada sesión abordará los siguientes elementos mínimos de práctica y reflexión:
- Conceptos básicos a comprender
- Ejercicios prácticos para fortalecer la capacidad asociada con el/los tema/s de la sesión
- Análisis crítico de la práctica actual y el potencial del tema de la sesión en el periodismo
- Ejercicio avanzado para auto-aprendizaje (para realizarse fuera de la sesión)
Todas las sesiones se llevarán a cabo en las oficinas de SocialTIC, ubicadas en Ia colonia Hipódromo Condesa, en la Ciudad de México.
Este segundo entrenamiento de datos será de nuevo completamente gratuito para las y los participantes. El equipo de SocialTIC y las/los especialistas invitados imparten sus sesiones de forma voluntaria.
¿Cómo postular? Requisitos:
Los requisitos mínimos para postular son: - Cupo limitado únicamente a 10 personas ( periodistas, activistas y especialistas de organizaciones de la sociedad civil) - Participar presencialmente en las 6 sesiones del entrenamiento en la Ciudad de México - Tener una fuerte ambición y convicción personal para realizar periodismo de investigación basado en datos; con enfoque propositivo, innovador y vanguardista - Realizar proyectos de periodismo, campañas o investigaciones con impacto y análisis cívico, político, social o ambiental - Tener experiencia en el uso de sistema de acceso a la información - Tener conocimientos y experiencia básica en el uso de hojas de cálculo (ej. Excel) - Tener conocimientos y experiencia básica en el uso de alguna plataforma web (ej. Wordpress) Las y los postulantes deberán llenar el siguiente formulario antes del 25 de enero 2017: https://goo.gl/f1QbD1 Se contactará a los y las participantes seleccionadas el 27 de enero 2017.
Selección de participantes:
La selección de las y los participantes se realizará de acuerdo con los siguientes criterios: - Interés en realizar reportajes, campañas o investigaciones basadas en datos; se priorizará a quienes quieran especializarse en periodismo, incidencia o investigación basada en datos. - Nivel de competencias básicas en el manejo de datos; el entrenamiento está enfocado a quienes cuenten con niveles básicos de uso de hojas de cálculo (ej. utilizar fórmulas básicas de Excel). A postulantes que no cumplan con este requisito, se les invitará a entrenamientos introductorios o especializados. - Visión de proyectos basados en datos a generar durante 2017; se priorizará a quienes ya cuenten con ideas de proyectos factibles y ambiciosos en la generación, análisis y narrativa de datos.
#DatosExtremos#Datos#Dataviz#PeriodismodeDatos#DDJ#Análisis#Narrativa#Visualización#Capacitación#EscueladeDatos#Periodistas#Activistas#OSC
1 note
·
View note
Text
Segunda sesión de #EntrenamientoExtremo: limpieza de datos
Primero, veamos a nuestro invitado, Eduard, Martín-Borregón, explicar él mismo la estructura de la limpieza de datos.
youtube
Revisión de tarea: campo único de ID es RFC Limpieza de datos: unificación de valores para referencia única. Ejercicio:
Descargamos una base de datos de compranet aquí
https://sites.google.com/site/cnetuc/contrataciones
1. Entender que la base de datos es lo primero 2. No saltar de inmediato a Open Refine
1. Filtro 2. Inmovilizar fila superior Atajo: Ctrl y flecha hacia abajo Contar los campos. Filtrar los campos por columna y detectar errores o dedazos Número de la clave UC Examinar la base: un error número almacenado como texto. Concordancia entre las cabeceras, las celdas y los tipos de valor (número, texto, fecha) Hallar un identificador único, un número único en la base, que no se repite en ninguna otra fila. Si no existe un identificador único, se genera Al importar csv, indicarle a la hoja de cálculo que todo es texto. Es importante tener una libreta e ir tomando notas para completar una metodología Ctrl Shift, aprender a usarlas. Lo que da sentido a la base de datos es Funciones 1. =espacios Espacios Al aplicar la fórmula, lo que se hace es copiar e ir a pegar valores. Es una buena práctica copiar los valores y dejar como texto. El objetivo final es sistematizar los nombres (Qué decisiones tomar con los nombres). Elegir un criterio para filtrar, por ejemplo, la creencia de que las empresas tienen más comas que los nombres de particulares. Con ello encontramos Borras fórmulas al copiar y pegar valores , S y filtrar Encontrar, devuelve la posición inicial de una cadena de texto, dentro de otra cadena de texto. 2. =encontrar(",SAe2;1) En la celda anexa, número inicial 1 Encontrar s,a ,s. Extraer Decir que quite un número concreto de caracteres de un número total 3. Extrae(AE15;1;26-1) -1
texto contiguo, empezar BODEGA de LLANTAS LA VIGA. Devolver de 26, lo que haya antes de la coma Aplicar un condicional 4. Si if=(AH15=valor#;) =si(extreae(AH2,1,4)=extrae(ah1:1:4);AH
Open Refine
Uso de Facetas Filtrar Ordenar por name Ordenar por Count Cluster Proveedor Edit cells Comon transforms elegir de la serie Colapsar Extraer
0 notes
Text
Primera sesión de #DatosExtremos 2017: Filas y columnas
Columna, explicación gráfica.
Fila, explicación gráfica.
NOTAS
La primera sesión del entrenamiento Extremo 2017 tuvo éxitos más que moderados: periodistas y activistas que usan bases de datos aprendieron los cimientos de un buen análisis de datos, entender qué diablos es un dato, un registro, una columna. Cuestiones que, aparentemente obvias, pueden ser una dificultad mayor más adelante, tanto para humanos, como para máquinas y otras entidades.
Aquí encuentras las conclusiones a las que llegamos en conjunto.
1. Bases de datos estáticas vs. dinámicas
Base estática
Tiene un área de trabajo asignada y fija, no puede ampliarse la memoria asignada a la base, aunque sí pueden añadirse o retirarse elementos.
Ejemplo:
Calendario
Agenda telefónica
Bases de datos dinámicas
Permiten ampliar o disminuir varias áreas de trabajo, son relacionales y permiten bajas y altas de datos relacionados que están cambiando frecuentemente.
Ejemplo:
Ecobici (Altas y baja de bicicletas en tiempo real)
2. Noción de columna vs. fila y noción de celda
Columna es una característica de algún elemento o suceso (color, tipo, material, costo de algún mueble)
Las filas representan un registro, o un suceso en el universo de la base. (cama, mesa, silla, en la base de datos de muebles).
Noción de celda.c
Es un valor adecuado a un registro y una característica (es un dato).
Frase inspiracional: “Todo suceso en el universo puede ser almacenado en forma de datos”
Diferencia entre dato numérico y dato alfabético
El dato numérico se almacena con el propósito de realizar operaciones aritméticas.
Alfabéticos
Por sus características incluyen texto y números, pero estos no pueden ser sujetos a operaciones aritméticas (por ejemplo, fechas).
Booleanos, binarios o de control.
Su función es determinar un curso específico para los registros. En función de ellos se toman"decisiones" dentro de encuestas, por ejemplo:
¿Te gusta el helado de chocolate? ¿Cuál es tu identidad de género? Dependiendo de esto puedes recibir preguntas diferenciadas en un cuestionario.
Catálogos
Hay más de dos opciones: le gusta el helado de a) chocolate b)fresa c) chicle
---------
3.Modelo Físico
Es la captura y organización de los datos ¿Cómo necesito que se vean los datos antes de empezar a recolectar la data?
Ejercicio: ¿Cómo recopilar información de esta fuente?
4. Diseño de la información
Te obliga a pensar en qué quieres hacer con los datos, no en función de su aplicación, sino en función de cómo los quieres almacenar, durante cuanto tiempo, y otras consideraciones.
Ejercicio: el equipo reorganiza agendas de comisionados descritas en texto como una base de datos que agrupe las acciones, ya sea por comisionado, por fecha, por compañía que se visita, etc.
5. Noción de granularidad contra data agregada.
Es el grado de detalle de los datos. Ejemplo: Presupuesto general contra presupuesto de gasto por rubro.
Granularidad (casi) nula:
Número total de fibra óptica en Datos de El Salvador por año.
6. Diferencia entre tabla y base de datos
Las tablas están pensadas para ser interpretadas por el ojo humano, no están pensadas para analizar los datos.
Ejercicio: el equipo reorganiza la tabla de incidencias en centros penitenciarios como una base de datos que tome en cuenta los factores contextuales de la base, como el año y mes de recopilación.
7. Documentación o metadata.
Los metadatos son datos altamente estructurados que describen información, describen el contenido, la calidad, la condición y otras características de los datos. Es información sobre información o datos sobre los datos. Describe cuestiones como la vejez (y en algunos caso por lo tanto la relevancia) de los datos.
Es clara y fácil de leer. Describe los códigos que se usan y el valor que tienen, por qué se almacenan algunos datos y no otros.
Ejemplo: los documentos del INEGI
Diseño metodológico del INDIREH
8. Una buena base de datos.
No tienes colores
Es plana y no tiene celdas unidas eso no sirve
No tienen operaciones matemáticas c2+(b4*D6-R3)
Tiene una función específica y única
Está documentada para que los humanos la entiendan
Sí se ve bien, funciona bien.
Las bases se añejan y saben mejor para extraer patrones y tendencias.
0 notes
Text
Lineup de instructores #DatosExtremos 2017

Aquí tenemos la alineación de instructores de la segunda edición de Datos Extremos.
Pueden acudir con insistencia a ellos en tuiter, pueden (y deben) también copiar a @Escueladedatos.
Sandra Barrón @_sandrabarron
2017 Knight Visiting Fellow en @niemanfdn Diseñadora de tecnología cívica, colabora con @bordepolitico @integridadmx
Sesión: UX basado en datos
Por Morlán (morlan.mx) vienen:
Irving Morales @moaimx
Emmanuel Landa @landa23
Ambos provienen de la academia y la ciencia dura y pura (física). Sus sesiones son visualización analítica de datos.
Eduard Martín-Borregón @emartinborregon
Fundador de @ProjectPODER, periodista e investigador responsable de la primera sesión de limpieza de datos.
Sergio Araiza @mexflow
Data Sherpa en Escuela de Datos (y en Filipinas nombrado “Open Data Jesus”) - SocialTIC Sesiones: Estructuras y Extracción de Datos
Juan Manuel Casanueva @jm_casanueva
Traductor de mundos geeks a humanos irreverentes - SocialTIC Sesión: Narrativas basadas en datos
0 notes