«Software antiplagio» por Lluís Codina

Algunas preguntas clave: ¿es lo mismo coincidencia que plagio?; ¿tienen sentido los umbrales de tolerancia?; ¿existe tal cosa como el autoplagio? por Lluís Codina

El compromiso contra el plagio de todos los actores del ecosistema de la comunicación académica (editores, autores, evaluadores, profesores, etc.) debe ser firme y contundente. En este sentido, el uso del software antiplagio puede ser de una gran ayuda.

Sin embargo, utilizar el software antiplagio de forma inadecuada, no solo puede dificultar este compromiso, sino que puede atentar contra preceptos éticos elementales.

En lo que sigue intentamos clarificar algunas cuestiones sobre el uso de software antiplagio dando algunas respuestas a un conjunto de preguntas que el autor ha articulado en dos apartados:

Sobre el software antiplagio:

1. ¿Qué es el plagio?

En el contexto de la comunicación académica, el plagio consiste en utilizar ideas o contenidos ajenos como si fueran propios. Es plagio, tanto si obedece a un acto deliberado como a un error. La proporción de la obra copiada, tampoco es significativa para calificar como plagio. En poca o en mucha proporción sigue siendo plagio. Es cierto, que la gravedad es variable, pero sigue siendo plagio en todos los casos.

Ampliar más

2. ¿Qué son las coincidencias?

El software antiplagio, pese a su nombre, no detecta plagio. Lo único que puede detectar son coincidencias. ¿Coincidencias de qué? El software antiplagio hace su trabajo comparando el documento a examen con los documentos existentes en una o más bases de datos. Turnitin, p.e, utiliza tres:

repositorios académicos;
documentos disponibles en Internet;
revistas académicas.
Si el documento a examen tiene fragmentos idénticos o muy parecidos al de otros documentos de alguna de las bases de datos, entonces es cuando se producen coincidencias. La suma de las coincidencias proporcionan el porcentaje total en el cual el trabajo examinado coincide con otros documentos. Pero, y aquí está el punto importante, las coincidencias no siempre son plagio.

2.1. Tipos de coincidencias

Hay al menos tres tipos de coincidencias:

  • Plagio. Contenido ajeno usado como si fuera propio, esto es, sin atribuir el contenido a su verdadero autor. En este caso, por supuesto, coincidencias SON plagio.
  • Falsos positivos. El software antiplagio puede señalar como coincidencias títulos de obras de creación, nombres de organismos y frases comunes del estilo «la Luna es un satélite de la Tierra». Como el porcentaje de similitud es la suma de todas las coincidencias, una obra puede arrojar porcentajes significativos de similitud. Es posible configurar el software antiplagio para que solo tenga en cuenta coincidencias de más de N palabras (p.e., de más 15 palabras), o para que ignore la bibliografía y contenido citado de forma correcta. En cambio, si no se configura bien esta clase de programas, porcentajes de similitud significativos basados en falsos positivos están garantizados. Por tanto, en este caso, coincidencias PUEDEN NO SER plagio.
  • Contenido reciclado. Es el mal llamado «autoplagio», y para entenderlo, necesitaremos ir al siguiente punto. Pero lo que ya podemos adelantar es que, en estos casos, coincidencias NO SON plagio. Otra cosa es que el uso de contenido reciclado sea aceptable (o no) en todos los casos.

3. ¿Existe el autoplagio?

El desafortunado término autoplagio es un oxímoron. Es como hablar de silencio ruidoso (o de noticias falsas, otra expresión que nos debería producir alergia). En su lugar, es mejor hablar de contenido reciclado. La razón es que se trata de una categoría que incluye situaciones que pueden ser aceptables, mientras que en el plagio, como sabemos, no existen tales situaciones.

En el mundo anglosajón, los expertos utilizan la expresión text recycling. Lo podemos ver en las recomendaciones que BioMed Central preparó por encargo del COPE, y donde señalan lo siguiente al respecto (el destacado es nuestro):

«(…) include situations where text recycling may be acceptable as well those where it is unlikely to be»

Fuente: BioMed Central. Text Recycling guidelines, s.f.

  1. ¿Qué es el contenido reciclado?

Se trata de contenido que aparece en más de una publicación del mismo autor, normalmente sin atribución. La mencionada guía encargada por el COPE lo define como sigue, a la vez que insiste en la preferencia por el término text recycling.

Text recycling, also known as self-plagiarism, occurs when sections of the same text appear (usually un-attributed) in more than one of an author’s own publications. The term ‘text recycling’ has been chosen to differentiate from ‘true’ plagiarism (i.e. when another author’s words or ideas have been used, usually without attribution).

Fuente: Text recycling guidelines, s.f.

La precisión «usually un-attributed» se debe a que, de otro modo tal vez no habría nada especial a considerar, pues un texto atribuido puede quedar fuera de cualquier radar.

Moskovitz (2021) por su parte, en un trabajo reciente en el que se propone clarificar términos alrededor de este concepto, elabora un interesante cuadro sinóptico del que retenemos esta afirmación:

Use of the term ‘self-plagiarism’ is unhelpful since it implies theft which is nonsensical when applied to one’sown work and conflates acceptable and unacceptable behaviour.

Moskovitz, 2020

4.1. ¿Qué limitaciones afectan al contenido reciclado?

El posible uso de contenido reciclado no está exento de limitaciones, como ya hemos dicho. Lo que sucede es que, a diferencia del plagio (donde la tolerancia es cero), el uso del contenido reciclado está sujeto a consideración.

En concreto, la guía de BioMed Central (por encargo del COPE), que utilizado para esta entrada, sugiere a los editores de revistas los siguientes elementos de consideración (Text Recycling Guidelines, s.f.), donde los destacados, como en los otros casos, son nuestros:

  • How much text is recycled [Cuánto del contenido es reciclado]
  • Where in the article the text recycling occurs [¿Dónde aparece?]
  • Whether the source of the recycled text has been acknowledged [Si la fuente original es reconocida]
  • Whether the article is a research or non-research article [Tipo de artículo]
  • Whether there is a breach of copyright [Cuestiones de copyright]
  • In some circumstances, cultural norms at the time and place of publication [Normas culturales en algunos casos pueden ser de aplicación]

La guía señala diversos grados de aceptación según, entre otros, los siguientes dos parámetros principales: (1) el volumen del contenido reciclado y (2) las secciones donde aparece (Text Recycling Guidelines, s.f.):

In general terms, editors should consider how much text is recycled. The reuse of a few sentences is clearly different to the verbatim reuse of several paragraphs of text, although large amounts of text recycled in the methods might be more acceptable than a similar amount recycled in the discussion.

Fuente: Text Recycling Guidelines (s.f.)

Por su parte, Moskovitz (2021) utiliza un criterio que puede resultar altamente clarificador gracias al esfuerzo realizado para presentar una taxonomía de tipos de contenido reciclado y las condiciones de aceptación de cada uno. Lo vemos a continuación.

4.3. La taxonomía de Moskovitz

Profundizando en la simple idea de que las limitaciones que afectan al contenido reciclado dependen de su muy diferente naturaleza, Moskovitz (2021) propone una taxonomía que permite determinar cuándo y en qué condiciones un contenido puede ser admisible (o no) para su publicación.

En concreto, Moskovitz propone cuatro categorías, que forman una especie de progresión, y donde solamente una de ellas, duplicate publication, está claramente fuera de lugar, tanto ética como legalmente.

4.4. Software antiplagio y tesis doctorales

Un punto mal conocido es que una de las bases de datos que utiliza el software antiplagio (al menos en el caso de Turnitin) incluye documentos inéditos, como es el caso de tesis que han sido sometidas a un análisis antiplagio para poder ser defendidas.

Son inéditas porque no se han publicado, ya que los autores pueden acogerse a un embargo de hasta dos años (al menos en algunas universidades), pero pasan a formar parte de una de las bases de datos de Turnitin porque han sido examinadas por este programa.

Una de las razones del embargo es para poder publicar artículos que derivan de la investigación original de la tesis. a veces de enorme calidad, con un verdadero potencial de ayudar a la ciencia y a la sociedad. El problema es que si la revista utiliza un software antiplagio, puede arrojar coincidencias pese a que la tesis de la que deriva, y esto es importante, no se ha publicado. La razón, como intentamos explicar es porque programas como Turnitin compararán este manuscrito con la base de datos que contiene tesis aunque aún estén embargadas. Complicado, pero es así.

Esto provoca una situación kafkiana: el examen antiplagio utilizado en la revista detecta coincidencias (por parte de contenido reciclado), pero el autor ha enviado en realidad un trabajo que es total y completamente inédito.

Más razones para decir que, primero, las coincidencias no (siempre) son plagio. Segundo, el caso del contenido reciclado dista mucho de ser simple, y posiblemente la taxonomía de Moskovitz se queda corta, a la vista del complejo mundo actual de la comunicación académica.

4.4. Un proyecto para estudiar el contenido reciclado

Por último, cabe reseñar el portal dedicado a estudiar el contenido reciclado, parte de un proyecto de la Duke University financiado por la National Science Foundation (del que tomaron el informe de Moskovitz):

Text Recycling Research Project

  1. ¿Tiene sentido establecer umbrales de similitud?

Regresemos al software antiplagio. A veces hemos encontramos la idea de que hay un porcentaje de similitud que es aceptable. En concreto, hemos visto cifras que suelen ir del 10 al 20%. Esto se puede encontrar en las instrucciones para autores de algunas revistas, así como en foros o redes sociales dedicadas a discutir temas de comunicación académica.

Sin embargo, toda la idea de los umbrales en este tema carece de sentido. Vemos porqué. Primero, si las coincidencias corresponden a plagio, no tiene sentido poner ningún umbral, por bajo que sea, porque el único porcentaje aceptable es el cero por ciento. En este caso, poner umbrales envía un mensaje nefasto.

En segundo lugar, si las coincidencias no corresponden a plagio, solo tiene sentido determinar a qué corresponde exactamente (¿falsos positivos?; ¿texto reciclado?; ¿una tesis inédita?); y vez determinado decidir según proceda (en lugar de establecer un umbral).

En un artículo publicado en Nature, Weber-Wulff (2019) no duda en afirmar lo siguiente:

Software cannot determine plagiarism; it can only point to some cases of matching text. The systems can be useful for flagging up problems, but not for discriminating between originality and plagiarism. That decision must be taken by a person.

Weber-Wulff (2019)BONUS

Una vez hemos propuesto las clarificaciones anteriores, una sección más, a modo de complemento. La primera parte hace referencia a lo que se denomina «la carga de la prueba«. La segunda es una simple aclaración terminológica. Lo vemos a continuación.

¿Tiene sentido pedir explicaciones a un autor por las coincidencias de un software antiplagio?

No tiene sentido. En su lugar, quien utiliza el software antiplagio es quien debe determinar si las coincidencias corresponden a plagio o a otra cosa, por la misma razón que la carga de la prueba siempre debe recaer en quien acusa (y nunca en el acusado).

Además de una razón ética, hay una razón pragmática. No podemos exigir explicaciones a quien no tiene acceso a los análisis para poder defenderse. Lo contrario conduce, nunca mejor dicho, a situaciones kafkianas donde el acusado, en realidad no puede saber por qué le acusan ya que no tiene acceso a los resultados del análisis: ¿es por unas frases repetidas del marco metodológico de un trabajo anterior ?; ¿es porque el software antiplagio está mal configurado?; ¿es porque se trata de un trabajo de historia del arte y menciona títulos de obras de arte y nombres de galerías y museos?

¿Texto reciclado o contenido reciclado?

El lector atento habrá observado que, mientras la expresión genérica recomendada en inglés, es text recycling, aquí la hemos traducido por contenido reciclado (en lugar de la forma más literal, texto reciclado). La razón es que las secciones recicladas pueden corresponder a texto, efectivamente, pero también a otros contenidos, como tablas, diagramas, etc.

Ciertamente, el software antiplagio solo puede detectar texto, pero esto no debería impedir un uso más preciso del término. Se da la circunstancia que en el mundo anglosajón parecen sentirse cómodos con un uso metafórico del término texto en expresiones como visual text, o como textual analysis, para referirse al análisis de imágenes en ámbitos como la semiótica.

Pero parece que en castellano es más lógico hablar de contenido reciclado si hemos de incluir todas esas categorías. No obstante, al final es cuestión de ver qué término termina teniendo éxito. De momento, nosotros apostamos por el de contenido reciclado.

Conclusiones

El plagio, cuando es realizado voluntariamente es una lacra. Cuando es fruto de un error, es una mala praxis. Aunque se trata de cosas que varían mucho en gravedad, en ningún caso pueden ser aceptadas.

El compromiso contra el plagio es importante, y el software antiplagio puede ayudar mucho. Sin embargo es imprescindible entender que este software no puede detectar plagio, en su lugar, puede detectar coincidencias, que a su vez, pueden ser plagio o no serlo en absoluto.

El concepto de autoplagio, que suele aparecer en el contexto del software antiplagio, carece de sentido y puede complicar, aún más, todo el tema. Los expertos recomiendan términos como text-recycling para diferenciarlo del auténtico plagio.

La razón es que el text-recycling o el contenido reciclado como preferimos nosotros, presenta una amplia casuística, y en algunos casos su uso puede ser legítimo tanto desde el punto de vista ético como legal. No está exento de limitaciones o de restricciones, pero queda fuera del ámbito del plagio, ya que este último no contempla ninguna excepción ni umbral de tolerancia.

El software antiplagio debe ser bienvenido. En cambio, su utilización sin un examen minucioso es irresponsable, porque puede causar daños innecesarios. No solo puede llevar a los editores a decisiones equivocadas, sino que puede comprometer de manera injusta, y tal vez irreparable, la reputación de un autor. Por eso, a la vez que celebramos su llegada debemos reclamar responsabilidad en su utilización.

Para saber más

 

  • Por secciones

  • Por fecha

    junio 2021
    L M X J V S D
     123456
    78910111213
    14151617181920
    21222324252627
    282930