Para el procesamiento y para garantizar la protección de datos se eliminaron los datos personales, las claves y número de registros de Conacyt. Además se agruparon los nombres de los pueblos indígenas tomando como referencia el catálogo de lenguas indígenas del Instituto Nacional de Lenguas Indígenas (INALI), pues en algunos casos el dato se refería a una variante de la lengua principal o bien a una autodenominación local que no hacía comparable la información.
Durante el proceso se encontraron inconsistencias en los datos tales como: concordancia entre municipio, entidad de nacimiento y pueblo indígena, el nombre del programa de posgrado no coincidía con su nombre oficial o formaba parte de las líneas de investigación de un posgrado más general, el área de conocimiento del posgrado no coincidía con el publicado en el PNPC, la entidad de la institución de estudios no concordaba con el listado del PNPC, en algunos casos se carecía de información, en pueblo indígena se hacía referencia a pueblos históricos como Tenochca o Chichimeca (no Chichimeca Jonás) que no representan pueblos indígenas actuales, Una vez resuelta la mayoría de las inconsistencias, se realizó la depuración de las bases de datos.
La base de datos del 2012, se eliminó ya que carecía de información básica para procesarla, por ejemplo: no se contaba con los datos sobre el municipio de nacimiento de las becarias, se encontraron numerosas inconsistencias y falta de información del pueblo indígena.