ANÁLISIS COMPARATIVO DE LAS FUNCIONES DE PYTHON Y R UTILIZADAS EN LA CIENCIA DE DATOS

Autores/as

  • Miguel Ángel Ruiz Jaimes Universidad Politécnica del Estado de Morelos
  • Juan José Flores Sedano Universidad Politécnica del Estado de Morelos
  • Yadira Toledo Navarro Universidad Politécnica del Estado de Morelos
  • Jorge A. Ruiz Vanoye Universidad Politécnica de Pachuca

Resumen

El enfoque principal del artículo es la comparación de los lenguajes de programación Python y R utilizando los algoritmos de agrupamiento K-means y Fuzzy C-means. Para realizar esto, se tomaron 9 repositorios descargados de la UCI Machine Learning Repository, cada uno con diferentes tamaños. Para la evaluación de los algoritmos se desarrollaron dos prototipos, uno para cada lenguaje, cada uno de estos programas permiten seleccionar el repositorio que se desea usar, realizar el pre procesamiento necesario, seleccionar los datos del repositorio que se desea evaluar, para finalmente, procesar los algoritmos y mostrar los resultados. Con los resultados obtenidos se determinó que los lenguajes si son comparables entre sí y que además el lenguaje R es el más apto entre los dos para la ciencia de datos. Con el fin de que los estudiantes de ingeniería puedan observar que los dos lenguajes de programación más utilizados para la ciencia de datos tienen diferencias, se utilizaron dos de los algoritmos más famosos (K-means y Fuzzy c-Means) para optar por el que se adecue a las necesidades del análisis e interpretación de los datos.

Citas

Aggarwal, C. (2015). Data Mining: The Textbook. New York: Springer

Calltutors (28 may, 2019). R Vs Python: Why Python preferred over R for data analysis? [blog]. Available from: https://www.calltutors.com/blog/r-vs-python-why-python-preferred-over-r-for-data-analysis/

Huang, Z. (1997). A fast clustering algoritm to cluster very large categorical data set in data mining. Cooperative Research Center for Advanced Computational Systems. Available from: http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.6.4718

Loh, W. (2011). Classification and Regression trees. En W. Pedrycz, Wires Data Mining and Knowledge Discovery (p. 14-23). Available from: https://onlinelibrary.wiley.com/toc/19424795/1/1

Kotu, V & Deshpande, B. (2019). Data Science: Concepts and Practice, (2nd ed). Cambridge: Morgan Kaufmann Publisher. Available from: http://asolanki.co.in/wp-content/uploads/2019/04/Data-Science-Concepts-and-Practice-2nd-Edition-3.pdf

Descargas

Publicado

2020-12-15