ANÁLISIS COMPARATIVO DE LAS FUNCIONES DE PYTHON Y R UTILIZADAS EN LA CIENCIA DE DATOS

A. Ruiz Jaimes1
J. J. Flores Sedano2
Y. Toledo Navarro3
J. A. Ruiz Vanoye4

 

RESUMEN
El enfoque principal del artículo es la comparación de los lenguajes de programación Python y R utilizando los algoritmos de agrupamiento K-means y Fuzzy C-means. Para realizar esto, se tomaron 9 repositorios descargados de la UCI Machine Learning Repository, cada uno con diferentes tamaños. Para la evaluación de los algoritmos se desarrollaron dos prototipos, uno para cada lenguaje, cada uno de estos programas permiten seleccionar el repositorio que se desea usar, realizar el pre procesamiento necesario, seleccionar los datos del repositorio que se desea evaluar, para finalmente, procesar los algoritmos y mostrar los resultados. Con los resultados obtenidos, se determinó que los lenguajes si son comparables entre sí y que además el lenguaje R es el más apto entre los dos para la ciencia de datos. Con el fin de que los estudiantes de ingeniería puedan observar que los dos lenguajes de programación más utilizados para la ciencia de datos tienen diferencias, se utilizaron dos de los algoritmos más famosos (K-means y Fuzzy c-Means) para optar por el que se adecue a las necesidades del análisis e interpretación de los datos.

 

 

1Profesor de Tiempo Completo. Universidad Politécnica del Estado de Morelos. mruiz@upemor.edu.mx.
2Estudiante. Universidad Politécnica del Estado de Morelos. fsjo161286@upemor.edu.mx.
3Profesor de Tiempo Completo. Universidad Politécnica del Estado de Morelos. ytnavarro@upemor.edu.mx
4Profeor de Tiempo Completo. Universidad Politécnica de Pachuca. jorge@ruizvanoye.com