O @NetoFerraz compartilhou um artigo com uma dica interessante
e importante para economizar o uso da memória ao usar o pandas, especialmente para trabalhar com arquivos muito grandes e pesados
, sem travar a máquina
: usar o tipo
category
em vez de object
, para strings que se repetem muitas vezes no DataFrame.
No artigo, só faltou dizer que já se pode especificar, na leitura do arquivo, que quer que determinada coluna seja interpretada como uma categoria:
df = pd.read_csv('dados.csv', dtype={'col1':'category'})
Assim, não se gasta memória à toa para depois converter, mas sim já se lê o arquivo gastando menos memória.