Privacidad: Minería de datos

Algunos se extrañan por qué numerosos contadores de visitas web son incluidos en los filtros nauscópicos antipublicidad desde… siempre. Tal vez leyendo este artículo tomen conciencia de la necesidad de preservar nuestra privacidad en todo aquello que esté en nuestra mano.

EL PAÍS Las cifras anticipan nuestros actos  Abel Grau

Una empresa habituada a trabajar con enormes bases de datos, el buscador Google, ya está aplicando el data mining en la gestión de los recursos humanos de su propia plantilla. Ante la marcha de algunos cargos estratégicos (ingenieros, diseñadores y ejecutivos de ventas), la compañía está desarrollando una herramienta que le permitiría conocer el estado de ánimo de sus trabajadores y averiguar cuáles se plantean marcharse, según publicó recientemente The Wall Street Journal

Minería de datos

En Estados Unidos la privacidad de los empleados está claramente definida: “El empresario es propietario de cada golpe de tecla y cada clic del ratón y de cada llamada del móvil de la empresa”, subraya Baker. “Además pueden estudiar calendarios electrónicos, registros laborales y currículos”.

En España, una sentencia del Tribunal Supremo de 2007 concluyó que los empresarios pueden rastrear toda esa información pero tienen la obligación de avisar antes a los empleados de cualquier supervisión de sus comunicaciones a través de Internet, y deben establecer protocolos…

Historias Relacionadas

Acerca de maty
Nauscopio Scipiorum

21 Responses to Privacidad: Minería de datos

  1. maty dice:

    Cryptex Guía de Recomendaciones a los usuarios de Internet (Agencia Española de Protección de Datos)

    -> Guía recomendaciones internet 052009.pdf

    Temario:
    * Introducción
    * Servicios de Navegación
    * Correo Electrónico
    * Virus, Gusanos y Ataques de Ingeniería Social
    * Comercio y Banca Electrónica
    * Servicios de Mensajería Instantánea y Chats
    * Los Servicios “Peer to Peer”
    * La Telefonía IP
    * Las videocámaras en Internet
    * Los buscadores
    * La Web 2.0.
    * La responsabilidad de los internautas
    * El uso de Internet por menores
    * Competencias de la Agencia Española de Protección de Datos

  2. maty dice:

    Enrique Dans Reidentificación: identificando personas en bases de datos anónimas

    La reidentificación es precisamente eso, el análisis de ficheros anonimizados con el fin de identificar a personas específicas a partir de ellos. Un artículo de Ars Technica, ‘Anonymized’ data really isn’t—and here’s why not, revela que, en realidad, un 87% de los norteamericanos pueden ser identificados en una base de datos utilizando únicamente tres datos: código postal, sexo y fecha de nacimiento, no incluidos en los datos de identificación que habitualmente se eliminan de este tipo de ficheros supuestamente anonimizados. Un trabajo de investigación de Paul Ohm recoge las conclusiones de lo que denomina “la promesa rota de la privacidad”: en la práctica, cualquier investigación medianamente seria es capaz de identificar a una persona a partir de la información fragmentaria procedente de ficheros supuestamente anonimizados o de patrones de uso desarrollados en muchas de sus actividades. Aquel usuario que buscaba obsesivamente formas de matar a su mujer debería estar preocupado: en caso de llegar finalmente a cometer el crimen, sería identificado sin demasiados problemas. La respuesta es, según el investigador, sumamente clara: los datos pueden ser útiles o perfectamente anónimos, pero nunca ambas cosas

  3. maty dice:

    Security By Default ¿Qué personaje de Lost eres?

    Bajo esta inocente pregunta se esconde un quiz de Facebook que permite a los desarrolladores de estas aplicaciones acceder a la información de nuestro perfil, esté o no en modo privado.

    Tus fotos, grupos en los que estés, tendencias políticas, religión u orientación sexual, estarán a disposición de estos desarrolladores. Y no sólo las tuyas sino también la información de tus amigos

  4. maty dice:

    Enrique Dans Privacidad, viajes y policía de fronteras

    …La cuestión ha sido abordada por una blogger especializada en seguridad, Sherri Davidoff, que en una entrada en Philosecurity examina detalladamente un informe del Department of Homeland Security (DHS) de un viajero determinado, obtenido mediante petición a través de la Freedom Of Information Act (FOIA, que permite a los norteamericanos solicitar copia de cualquier documento que sobre ellos maneje la Administración): ni más ni menos que doce páginas que incluyen, además por supuesto de nombre, apellidos, pasaporte y todos los datos habitualmente disponibles en pasaporte y documentación, otra serie de datos que sería en principio más complicado sospechar, tales como números de tarjetas de crédito con sus correspondientes fechas de expiración, direcciones IP utilizadas para hacer las reservas de los billetes, fecha de nacimiento, identificadores de programas de viajero frecuente (incluyendo los que no han sido utilizados para ese viaje en concreto), información de hoteles e itinerarios, programa de viaje incluyendo números de asiento, teléfonos de casa, trabajo y móvil, datos de la reserva del hotel con sus preferencias, etc.

    Todos los datos pueden verse, con las obvias eliminaciones para proteger la identidad de usuario, en este pdf.

    Con los datos a su alcance, el DHS elabora un perfil de la persona y asigna un risk assessment score, una puntuación que trata de discernir la probabilidad de relación con cualquier tipo de actividad delictiva o de contacto con células terroristas…

  5. maty dice:

    Wall Street Journal Facebook, MySpace Confront Privacy Loophole
    -> Google Translate Facebook, MySpace Enfrentar la escapatoria de privacidad

    Resumiendo, que negocian con los datos privados de los usuarios sin su permiso. En España es delito.

  6. maty dice:

    Un informático en el lado del mal Minería de datos con Maltego (1, 2 y 3)

    Minería de datos con Maltego (1 de 3)
    Minería de datos con Maltego (2 de 3)
    Minería de datos con Maltego (3 de 3)

    Autor: Manu “The Sur”

    Maltego es una aplicación de minería y recolección de información utilizada durante la fase de ‘Data Gathering’, proceso en el cual se trata de obtener el mayor número de información posible sobre un objetivo para su posterior ataque.

    Maltego es una aplicación de pago en su versión completa, pero dispone de una versión gratuita llamada ‘Community Edition’ en su última versión V3 con algunos límites, que es la que se va a utilizar en este artículo de introducción…

  7. maty dice:

    Hispasec Facebook y la (in)seguridad: Un resumen (I) Sergio de los Santos

    El 26 de enero Alex Rice, responsable de seguridad de Facebook anunciaba dos mejoras importantes con respecto a la seguridad.

    * La primera es el uso de conexión segura (SSL) no solo a la hora de introducir la clave, sino durante toda la sesión. Esto es una medida que llega muy tarde, y en respuesta directa a herramientas como Firesheep. Se trata de un plugin para Firefox aparecido en octubre de 2010 que aúna varias herramientas de forma muy cómoda. Pone la tarjeta de red del sistema en modo promiscuo (a “escuchar” todo el tráfico de red local no segmentada) y extrae automáticamente los datos que le interesan (la cookie de sesión) de ciertas páginas no protegidas (entre ellas Facebook) y permite que un usuario suplante la identidad de otros que naveguen en la misma red local. Esto ya se puede hacer con un sniffer, un proxy local, envenenamiento ARP, etc… pero Firesheep demostró lo fácil que puede resultar para cualquiera robar la sesión a través de un solo click. La solución es también sencilla: cifrar toda la información. Facebook ha reaccionado permitiendo que toda la sesión se base en SSL, pero de forma opcional, lo que todavía deja en manos del usuario la decisión de que su sesión permanezca protegida o no. Es una medida necesaria pero insuficiente.

    Además existe Borogove, otro programa que facilita con mecanismos similares la obtención de conversaciones de chat dentro de Facebook. Aunque se supone que debería estar protegido por el cifrado, el sistema de chateo no funciona correctamente bajo el cifrado.

    * Autenticación Social. Esto, en resumen, es eliminar el tradicional CAPTCHA y utilizar el reconocimiento de caras de amigos para demostrar que eres un ser humano. Troyanos como koobface han demostrado que los CAPTCHA no son infalibles. Recordemos que el troyano Koobface, “secuestraba” el sistema y pedía a la víctima la resolución de varios CAPTCHA de Gmail. Así conseguía crear cuentas fantasma automáticamente para poder difundirse mejor, entre otros objetivos. Usaba a sus víctimas como esclavos o “CAPTCHA brokers”.

  8. maty dice:

    Hispasec Facebook y la (in)seguridad: Un resumen (y II) Sergio de los Santos

    * Facebook y Twitter se están convirtiendo en plataforma preferida para difundir ataques, por encima incluso del correo tradicional. El correo basura se ha reducido un 75% en seis meses. El spam tradicional pierde efectividad porque cada vez hay mejores filtros en los servidores y clientes de correo, también porque el internauta se ha concienciado y no hace caso a los mensajes de publicidad que llegan a su buzón. Pero en realidad la basura se desplaza, no desaparece. Facebook y Twitter son el nuevo objetivo de los spammers, entornos que no se contabilizan en las estadísticas que reflejan el descenso del spam tradicional.

    Twitter, por ejemplo, reconoce que ha tenido picos de hasta el 11%, pero que lo ha reducido al 1%. Esto quiere decir que si mueve 300 millones de mensajes diarios, tres millones de ellos son basura.

    En Facebook más del 15% de los mensajes con enlaces que circulan son spam. En las redes sociales un gran porcentaje de la gente visita los enlaces (en teoría proviene de fuentes más confiables), mientras que por correo electrónico apenas consiguen ratios del 0,00001% de incautos. Así que para conseguir unos beneficios similares en las redes sociales los atacantes necesitan enviar mucha menos cantidad de mensajes

  9. maty dice:

    ALT1040 Facebook reafirma su intención de compartir con terceros tu teléfono y dirección

    Pues bien, ahora Facebook ha respondido a la carta de los dos congresistas con otra en la que básicamente reafirman su intención de permitir a terceros acceder a la direcciones de correo físicas y a los números de teléfono de los usuarios escudándose en que muchas aplicaciones de Facebook han tenido desde siempre la posibilidad de solicitar información a los usuarios de forma transparente, que son ellos quienes deciden si darla o no y que están considerando seriamente restringir la opción de compartir su información de contacto con terceros a los menores de 18 años…

    Ahí está el auténtico negocio. Gracias al desprecio por la privacidad y seguridad tan habitual entre la población.

  10. maty dice:

    Denken Über FBI: “si supieras lo que hacemos demandarías a todos”

    -> Blog of Rights FBI: If We Told You . . . (Part II)

    “Si los clientes supiesen que las empresas colaboran con el FBI estos podrían cancelar sus servicios o iniciar demandas civiles contra las empresas para prevenir que estas sigan entregando información” [1] … “como las empresas entienden el alto costo que deberían pagar si se supiera esto es, solo con el conocimiento de que existe total confidencialidad, que colaboran con nosotros y de otra forma no lo harían”

  11. maty dice:

    Alt1040 China: Google es un arma política Alan Lazalde

    Al parecer los ataques de supuesto origen chino se valieron del spear phishing, técnica en el que el atacante selecciona un grupo de personas con algo en común —compañía, banco, entre otros—, luego envía mails de alguien que pertenece a la organización, y finalmente atrapa a las víctimas con una ventana de inicio de sesión al servicio —Gmail, en el caso que nos ocupa…

  12. maty dice:

    Una motivación adicional para el uso de los filtros nauscópicos, pues tienen en cuenta unos cuantos scripts chismosos. El problema está con las cookies, por ahora.

    233grados.com El WSJ cambia sus políticas de provacidad para obtener información de sus usuarios

    El Wall Street Journal ha anunciado que cambiará la política de privacidad de su portal wsj.com para  obtener los datos de navegación de los usuarios sin consentimiento previo. Anteriormente, las normas del diario establecían que el usuario debía dar permiso para que el medio pudiera usar esa información.

    “El cambio permitirá que la información y los servicios sean más personalizados”, argumenta el WSJ. “Es una jugada de mierda e hipócrita”, ha respondido Dan Gilmor, uno de los fundadores del periodismo ciudadano, en referencia al extenso reportaje que ha publicado el propio Wall Steet Journal sobre las invasiones de las políticas de privacidad

  13. maty dice:

    L’home dibuixat -> Geek.com Facebook stores up to 800 pages of personal data per user account

    While Facebook insists it does not share your details with anyone, would it surprise you to find the amount of data stored about each user may in fact total 800 pages? It certainly surprised me.

    If you live in Europe, then you have the right under a European data protection law to request a copy of all information stored about you on any given service. In the case of Facebook, you can demand such information via the Personal Data Requests form

    Por cierto, ayer ya descubrí más scripts chismosos en WSJ y NYT, pero que muy chismosos. Próximamente actualizaré.

  14. maty dice:

    LA VANGUARDIA Tracking the Trackers: “Saben que eres tú” Anna Solana

    Del informe, titulado ‘Tracking the Trackers‘, se desprende que el 61% de las webs norteamericanas más visitadas mandan datos a otras empresas y el 45% a hasta cuatro dominios diferentes. Rottentomatoes.com, que envía datos a 83 dominios, y Cafemom.com, que se relaciona con otras 59 empresas, se llevan la palma.

    Entre los datos sensibles que, según dice Mayer, se distribuyen, figura no sólo el nombre de usuario sino también el sexo, la edad, el código postal, el estado civil y, en algunos casos, como el del portal de contactos OKCupid.com, “la frecuencia de uso de drogas”. Éste es, de hecho, el dato que ha levantado más ampollas. Hace unos días, BlueKai y Lotame, dos de las compañías que reciben datos de los sitios mencionados, negaban manejar información personal y aseguraban en el Wall Street Journal que sólo utilizan datos demográficos para hacer estudios de mercado. Comscore y Google Analytics reiteraban que ni analizan ni divulgan datos sensibles…

    La próxima (gran)actualización de filtros nauscópicos combatirá los nuevos chismosos. Después reestructuraré -me da pereza- las distintas formas de filtrar a las que doy soporte.

    Pero tanto dará, la inmensa mayoría de navegantes desprecia la privacidad y la seguridad informáticas, como es evidente con el boom de las redes sociales.

  15. maty dice:

    BBC Mundo Olvídese del anonimato en internet… Es un mito Margarita Rodríguez

    Mayer condujo un estudio en el que, tras analizar 185 sitios en internet, halló que en 113, el nombre del usuario (user name) o la identificación del usuario (user ID) se fugó a una tercera parte. Es decir, en 61% de la muestra

    Danesh Irani, del Instituto de Tecnología de Georgia, y un grupo de investigadores recopiló la información de 13.990 usuarios activos de internet.

    “Después de analizar información de 10 de las 15 redes sociales más populares en internet, encontramos que un usuario adscrito a una red social revela en promedio 4,3 campos de su información personal. Para usuarios con más de ocho membresías en redes sociales, el promedio aumenta a 8,5″, indica la investigación…

    Ni mucho menos hay que olvidarse del anonimato, sólo hay que tener precauciones e informarse para limitar el espionaje. Tristemente a la inmensa mayoría de internautas tanto le da, pues que sufran las consecuencias de su dejadez.

    Por cierto, el único dato que revelo es que soy de Tarragona, algo incomodísimo de ocultar si no se recurre a navegación anónima sistemáticamente. Y el identificador del navegador y S.O., que son fácilmente ocultables.

  16. maty dice:

    Hispasec Hemos probado la nueva FOCA 3.0

    ¿Qué sabe la red de este dominio? El abanico de posibilidades brinda desde búsqueda con múltiples motores, consultas DNS, búsqueda por diccionario o escaneos PTR. Otro aspecto es la integración con Shodan y Robtex, auténticos monstruos de sabiduría y conocimiento sobre estructura de la red.

    Durante esta fase la FOCA va añadiendo nodos con sus descripciones y datos. Es sorprendente comprobar cómo va traceando la red y dibujando su esquema. Si quieres centrar la atención a un servidor en concreto tienes opciones para ver el banner, qué rol tiene, hacerle un crawling o ver qué tipos de fichero aloja, etc. Incluso, aunque no se trata de un escáner de vulnerabilidades te muestra algunas de ellas, como los métodos inseguros, backups que no deberían estar ahí.

    Donde despunta es en el apartado de metadatos. FOCA realiza una búsqueda de múltiples tipos de archivos, se los descarga, extrae los metadatos y los analiza. El proceso es bastante rápido. Tardó segundos en procesar más de 600 documentos de tipo pdf, doc y xls. Tras este análisis presenta un sumario de la información donde encuentras nombres de usuario, rutas internas, impresoras, software usado, direcciones de correo, sistema operativo usado, contraseñas y dominios o IPs adicionales.

    Otro punto a destacar es la generación de informes y el sistema de plugins
    . A la FOCA se le puede añadir extras, es una herramienta muy atractiva para ir añadiendo extensiones…

    -> Informática 64

    Un informático en el lado del mal FOCA 3: Una semana después 05.11.2011

  17. maty dice:

    EXPANSIÓN Las empresas podrán comercializar datos personales sin pedir permiso

    Fin a la batalla histórica entre la Agencia Española de Protección de Datos (AEPD) y las empresas de comercio electrónico y de crédito. Una sentencia del Tribunal Supremo (TS) abre el mercado de datos personales para las empresas de ventas por Internet, para las que gestionan ficheros de morosos de banca y seguros o para las telecos y sus clientes…

    En esta sentencia, el TS asume el fallo de Luxemburgo y dice que, como reza el citado artículo, el tratamiento de datos sin consentimiento es lícito si es necesario para la satisfacción del interés legítimo perseguido por el responsable del tratamiento o por el tercero o terceros a los que comuniquen los datos y que no prevalezcan los derechos y libertades fundamentales del interesado…

  18. maty dice:

    20minutos.es (Europa Press) Google, Facebook y Apple luchan por que los usuarios no puedan limitar el acceso a sus datos

    Google, Facebook, Apple y otras compañías de tecnología han hecho un lobby contra las propuestas del Congreso y de agencias federales que permitirían que los usuarios de Internet aplicaran comandos de “no rastrear” en sus navegadores para bloquear la publicidad personalizada. Los consumidores podrían también editar información personal sobre ellos que ha sido almacenada…

  19. maty dice:

    Nada es Gratis Las elecciones americanas, la derrota de los hipopótamos, y lo que deben aprender nuestros hijos (una pista: matemáticas) Luis Garicano

    …La victoria, como en el caso de la evaluación cuantitativa de jugadores de baseball que describe brillantemente Michael Lewis en Moneyball, no es de él, sino de un mundo nuevo en el que el instinto, los especuladores de salón que no saben leer ni un dato pero saben enrollarse como las persianas sobre todo lo que está bajo el sol, pierden la batalla enfrentados a aquellos capaces de entender, interpretar, analizar la información en este mundo tan rico en ella. Es la muerte de los hipopótamos (Hippos en inglés), como dice Hal Varian (el Chief Economist de Google) y  otros evangelistas del Big Data. Hippo (Highest Paid Person’s Opinion), es la opinión de la persona que más cobra en la habitación.

    En empresas e instituciones sin respeto al conocimiento y a la evidencia, los argumentos se ganan siendo el que más cobra, el más poderoso en la habitación, el Hippo. En las empresas y administraciones (¡y blogs!) basadas en la evidencia, el que gana el argumento es cualquiera, incluido el más bajo jerárquicamente que participa en la reunión, con tal de que tenga el argumento correcto basado en lo que muestran los datos, la evidencia empírica. Esa es la organización del futuro o mejor dicho la organización que tiene futuro. (Una anécdota  personal de una organización que funciona así: durante el doctorado  trabajé como asociado en prácticas en McKinsey un verano. Me trataron de igual desde el primer día, y decidieron que el tema que estábamos tratando lo dominaba más yo y, sin complejos ni preocupaciones jerárquicas, invitaron a un humilde asociado le explicara nuestro análisis al CEO de la empresa cliente. De ahí mi enorme respeto a esa organización, que aún dura.)

    La revolución que ya ha tenido lugar en finanzas, en baseball, en marketing (con el análisis masivo de bases de datos de compra) y en la política presidencial americana llegará poco a poco a todas los áreas del conocimiento. Y para beneficiarse de ella, para participar en ella, habrá que tener un buen conocimiento de estadística y de matemáticas. Las matemáticas no son sólo, como dijo Galileo, el lenguaje en el que Dios escribió el universo, sino que son el lenguaje de los datos y la información en la que estamos inundados. Sin entender modelos matemáticos sencillos es prácticamente imposible participar activamente, más allá del consumo pasivo, en campos como la biología, la economía, las finanzas, la contabilidad, la sociología, la ciencia climática, la ciencia política, el marketing, la ecología…

    • maty dice:

      BBC Mundo Un matemático predijo la victoria de Obama y ahora es una celebridad Daniel Pardo

      No es periodista. No es político. Es Nate Silver, el estadístico que predijo -número por número, estado por estado, con una exactitud sin precedentes- la victoria de Barack Obama en las elecciones presidenciales de EE.UU. este martes…

      A diferencia de los expertos que predijeron una elección muy reñida y sin un ganador claro, Silver dijo que Obama tenía 90% de chance de vencer y acertó el ganador en cada uno de los 50 estados. Incluso en los momentos en que Romney parecía el ganador, Silver se mantuvo firme en sus predicciones y se enfrentó a todos los pundits que hoy, según la revista Slate, “le deberían pedir perdón”

      Primero, suma una inmensa cantidad de encuestas sobre los candidatos y saca un promedio. Pero no es un promedio simple. En el momento de sumar, tiene en cuenta tres variables distintas: el momento en que se publica determinada encuesta, dándole más relevancia a las que están más cerca del presente; el margen de error, priorizando las pesquisas que más gente encuestan; y la calidad, dándole más peso a las encuestas que históricamente suelen ser más precisas.

      Tal vez la estimación más controverisial de Silver fue esta: que Obama tenía 90% de chance de ganar.

      En segundo lugar, Silver hace un estudio de cada uno de los estados donde se define la elección estadounidense, la cual se determina no según el número de votos sino de acuerdo el número de delegados que representa cada estado. En ese análisis local, Silver tiene en cuenta la elección de senadores, la participación histórica, la ventaja del candidato que está en el poder y los factores demográficos, que estudia por medio de una regresión lineal: por ejemplo, si el porcentaje de latinos sube en un estado, esto es relevante.

      Silver le asigna importancia a cada una de las variables y lo vuelve todo un modelo estadístico que, como un algoritmo, solo requiere introducir la información en un software y después analizar los resultados…

"Age quod agis et bene agis" - Hagas lo que hagas, hazlo bien

Por favor, inicia sesión con uno de estos métodos para publicar tu comentario:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s