Cómo combinar varias hojas de Excel en Pandas

Puedes opinar sobre este contenido:
  • 0
  • 0
  • 0
  • 0

A menudo, es posible que desee importar y combinar varias hojas de Excel en un solo marco de datos de pandas.

Por ejemplo, suponga que tiene el siguiente libro de trabajo de Excel llamado data.xlsx con tres hojas diferentes que contienen dos columnas de datos sobre jugadores de baloncesto:

Podemos importar y combinar fácilmente cada hoja en un único DataFrame de pandas usando las funciones de pandas concat () y read_excel () , pero primero debemos asegurarnos de que xlrd esté instalado:

pip instalar xlrd

Una vez que esté instalado, podemos usar el siguiente código para importar y combinar estas tres hojas en un DataFrame de pandas:

#cargar biblioteca de pandas 
importar pandas como pd

#importar y combinar las tres hojas en un pandas DataFrame 
df = pd. concat (pd. read_excel ('data.xlsx', sheet_name = None ), ignore_index = True )

#view DataFrame
 df

        puntos de jugador
0 A 12
1 B 5
2 C 13
3 D 17
4 E 27
5 F 24
6 G 26
7 H 27
8 yo 27
9 J 12
10 K 9
11 L 5
12 M 5
13 N 13
14 O 17

Cómo funciona este código

Solo hay dos piezas para comprender cómo esta única línea de código puede importar y combinar varias hojas de Excel:

1. Lea todas las hojas.

pd. read_excel ('data.xlsx', sheet_name = Ninguno )

Este fragmento de código se lee en todas las hojas de un libro de Excel. De forma predeterminada, la función read_excel () solo lee en la primera hoja, pero al especificar sheet_name = None, podemos leer en cada hoja del libro de Excel.

2. Concatenar todas las hojas.

pd. concat ( DataFrames para concatenar , ignore_index = True )

Este fragmento de código simplemente concatena todos los DataFrames de cada hoja de Excel en un único DataFrame de pandas. Al especificar ignore_index = True , les estamos diciendo a los pandas que los nombres de las hojas individuales no son importantes.

Tenga en cuenta que este código solo funciona si cada una de las hojas de Excel tiene el mismo formato. En este ejemplo, cada hoja tenía dos columnas de datos y cada columna tenía el mismo nombre, razón por la cual esta única línea de código funcionó tan fácilmente para combinar cada una de las hojas de Excel en un DataFrame de pandas.

Recursos adicionales

La guía definitiva: cómo leer archivos de Excel con Pandas
Cómo escribir marcos de datos de Pandas en varias hojas de Excel

  • https://r-project.org
  • https://www.python.org/
  • https://www.stata.com/

Redactor del artículo

  • Luis Benites
    Director de Statologos.com

    Tengo una Maestría en Ciencias en Estadística Aplicada y he trabajado en algoritmos de aprendizaje automático para empresas profesionales tanto en el sector de la salud como en el comercio minorista.

    Ver todas las entradas

¿Te hemos ayudado?

Ayudanos ahora tú, dejanos un comentario de agradecimiento, nos ayuda a motivarnos y si te es viable puedes hacer una donación:

La ayuda no cuesta nada

Por otro lado te rogamos que compartas nuestro sitio con tus amigos, compañeros de clase y colegas, la educación de calidad y gratuita debe ser difundida, recuerdalo:

Deja un comentario

Dos funciones que la gente suele confundir en R son grep () y grepl () . Ambas funciones le permiten…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!