Diario y Radio Universidad Chile

Año XVI, 28 de marzo de 2024


Escritorio

Investigadores de la U. de Chile ganan “Mundial” de detección de plagio

Juan Velásquez, Sebastián Ríos, Gastón L’Huillier y Gabriel Oberreuter se adjudicaron el primer premio de la competencia PAN, superando a 14 grupos de investigadores, con una herramienta que detecta copia en los trabajos de los alumnos.

Comunicaciones Depto. de Ingeniería Industrial

  Martes 30 de agosto 2011 13:30 hrs. 
fcfm

Compartir en

Juan Velásquez, académico del Departamento de Ingeniería Industrial y Director del proyecto Fondef DOcument COpy DEtector (DOCODE); Sebastián Ríos, Director Alterno; Gastón L’Huillier, jefe del proyecto, y Gabriel Oberreuter, investigador del DOCODE, fueron reconocidos con el primer lugar en la Competencia PAN (Uncovering Plagiarism, Authorship, and Social Software Misuse).

Esta es la segunda vez que el profesor Velásquez y su equipo participan con el proyecto DOCODE en esta competencia mundial de plagio y este año se quedaron con el primer lugar (el 2010 obtuvieron el quinto puesto) entre 14 grupos de investigadores que clasificaron para esta competencia y únicos representantes de Latinoamérica.

Sobre las razones del éxito de este software, herramienta disponible en versión 2.0 que detecta copia en los trabajos de los alumnos, los galardonados lo atribuyen a que el proyecto presentado fue más asertivo y preciso en la detección de los textos sospechosos. Tanto en lo que se conoce como plagio intrínseco (sólo analizando el documento en cuestión) como también en el caso del plagio externo (comparando el documento sospechoso contra posibles fuentes), las dos categorías evaluadas en esta competencia.

“Una de las innovaciones que logramos desarrollar fue la detección de plagio intrínseco. Es decir, cuando se hacen variaciones en los párrafos y existen saltos en el estilo de escritura, los cuales son detectados por este software”, explica Velásquez.

Gabriel Oberreuter, Ingeniero Civil Industrial de la U. y “cerebro” de los algoritmos del DOCODE, complementa: “Si nuestro algoritmo dice que hay plagio en un párrafo es altamente probable que así sea. Por otra parte, si existe plagio también es altamente posible que lo encontremos (recall). Por último, considera un elemento que se denomina ‘granularidad’ y que se refiere a que el sistema sea consistente al momento de detectar plagio. Si hay una plana entera copiada, la idea es que detecte esa plana completa. En el fondo, que exista congruencia”.

Esto, coinciden los investigadores, es posible gracias a un disciplinado y riguroso trabajo en equipo, el cual también está integrado por lingüistas, entre ellos, Patricio Moya de la Facultad de Humanidades de la Universidad de Chile, quien ha apoyado al grupo en la reformulación de estrategias que luego han sido llevadas a una organización computacional.

“Los algoritmos que están dentro del DOCODE son únicos a nivel mundial”, declara Velásquez orgulloso.

Y para probar esto cuenta que han recibido varias invitaciones desde el extranjero para explicar cómo lograron montar este sistema anti plagio. En este contexto, ya dictaron algunas conferencias en España y tienen agendadas otras cinco en Francia donde participarán en una reunión con todos los directores mundiales de la Web Intelligence Research, en calidad de integrantes de esta red e instancia en la que dirán hacia dónde va la web semántica y la detección de plagio, además de Austria, Alemania, Rumania, Holanda y República Checa.

“Es un honor poder estar con los fundadores de los conceptos de la inteligencia de la web y que nos consideren parte del grupo que está definiendo hacia dónde va la investigación científica en este ámbito. Les llama la atención que nosotros, partiendo de ideas muy teóricas, pasáramos a la creación de una herramienta que en estos momentos está etapa de comercialización. Esta es una cadena que es muy difícil de armar dentro del mundo de la ciencia”, comenta Velásquez.

Validando el core del DOCODE

Si bien el año 2010 el equipo liderado por Juan Velásquez se enfrentó a grupos que ya habían competido el 2009, por lo que estaban en desventaja en términos de desarrollo del proyecto, aún así lograron el quinto lugar, lo cual de paso sentó un precedente, ya que en esa oportunidad sólo clasificaron dos equipos latinoamericanos (Brasil y Chile).

Este año, con el respaldo de nuevos desarrollos y los algoritmos perfeccionados – además de nuevos computadores -, el equipo DOCODE se propuso ganar la competencia. Y lo logró con creces, ya que casi doblaron en puntaje al equipo que se quedó con el segundo lugar. Un resultado pionero en el área de text mining o lingüística computacional y reconocimiento que valida el core del DOCODE.

“Ser los mejores a nivel mundial en detección de plagio nos valida a nivel algorítmico y de investigación”, contextualiza Sebastián Ríos, segundo de a bordo de este proyecto.

“Junto con esto, agrega el investigador, también está la componente de negocio que nos exige compararnos con otras herramientas, en particular con Turnitin, software de plagio más vendido en el mundo y utilizado en Estados Unidos, Corea y Japón. Y para hacerlo tenemos que ser mejores y entregar más funcionalidades, lo que trae consigo algunas componentes adicionales: la detección de copia en las redes sociales, la detección de los tópicos en las tareas de los alumnos y la gráfica del DOCODE que es distinta a la de Turnitin, mucho más clara y sencilla de usar y que ha superado con éxito pruebas de usabilidad con profesores en colegios, en Institutos Profesionales y en la misma Universidad”.

Detección intrínseca y desafíos futuros

La versión 2011 de esta competencia incluyó un elemento nuevo que, a juicio de los investigadores, es relevante en términos de plagio y que se conoce como ‘detección intrínseca de plagio’. Esta herramienta compara un documento consigo mismo y es capaz de determinar variaciones de estilo de escritura, sin necesidad de comparar con posibles fuentes que, debido a Internet, pueden encontrarse en cualquier lugar.

Pese a que los investigadores del Departamento de Ingeniería Industrial se enfrentaron a grupos con más recursos, los algoritmos del DOCODE fueron superiores. Un trabajo que fue calificado como de outstanding achievement por los referies de la competencia quienes, cuenta Velásquez, quedaron asombrados por la distancia en los resultados que lograron respecto del equipo que obtuvo el segundo lugar.

Sobre lo que viene a futuro, los investigadores responsables de este proyecto adelantan que el próximo año volverán a competir por el primer lugar.

A corto plazo, en tanto, planean incorporar más idiomas al software para que éste sea capaz de detectar un párrafo copiado en otro idioma (actualmente el DOCODE opera sólo en inglés o en español).

Junto con esto, también planean incluir la detección de texto oculto que son espacios rellenados con letras en color blanco para que el software de detección de plagio lo lea como un todo (texto completo) el cual, al no tener sentido, impide que el sistema detecte la copia. Una práctica que se comenzó a pesquisar en el año 2009 en algunos países del mundo, entre ellos Rusia.

“Ya implementamos un primer módulo que permite detectar si un texto viene preparado maliciosamente, aplicación que no ofrece Turnitin y elemento que le agrega robustez al DOCODE”, puntualiza Gabriel quien también es alumno del Magíster en Gestión de Operaciones (MGO).

Agrega: “Si bien trabajamos la problemática del plagio desde el punto de vista de detección, o sea, cuando la copia ya está ocurriendo, existe un ámbito que es la prevención de esta conducta y que tiene que ver con la educación, el código de honor y la labor de los profesores en él. Es muy distinto que un docente pida definiciones de algunas materias a que solicite aplicaciones de ella, ya que éstas últimas son más difíciles de plagiar. Esto va de la mano de la prevención que es un área que nos gustaría desarrollar en un proyecto futuro”, analiza Gabriel.

Sebastián complementa: “La idea es que ya que tenemos una herramienta que detecta plagio podamos capacitar a los profesores en su uso y los orientemos sobre cómo generar tareas para que los alumnos aprendan de mejor manera”.

“Se trata de dar una solución completa al tema del plagio, que va más allá de la detección”, concluye Gabriel.

La premiación se realizará en septiembre de este año.

Síguenos en