Lançamento da Tarefa 3: 08/10/24
Entrega da Tarefa 3: 22/10/24
- Assista ao vídeo “Groupby no python: exemplos com dados de seguro rural” (link https://youtu.be/UOE6pE8zxvU?si=5YIIIzMY5HGJ5ipg).
- Faça uma cópia do notebook de modelo (presente na descrição do vídeo) no seu Google Drive (pelo Google Colab vá em Arquivo > Salvar uma cópia no Drive) e renomeie o notebook para um nome apropriado.
- Use os dados de 2023 salvos na Tarefa 1 (“seguro-rural-2023.xlsx”).
- Executar os mesmos comandos do notebook, mas com os dados de 2023.
- Na seção “Elaborar questões sobre os dados”, eu inseri algumas perguntas a serem respondidas dentro do próprio notebook. Você vai usar os dados de 2023 para responder as seguintes questões. São elas:
a) Quais são os cinco estados com maiores prêmios médios (do maior para o menor)? Obtenha o gráfico de colunas e escreva uma célula de texto abaixo dele para responder.
b) Para quais estados os valores médios de indenizações ultrapassaram os valores médios de prêmios? Insira uma célula de texto abaixo do gráfico para responder.
c) Obtenha a cultura mais segurada por estado do Brasil em 2023 por meio de:
# usando apply
uf_cult = df.groupby('uf')['cultura'].apply(lambda x: x.value_counts().index[0])
Transforme essa informação em um dataframe por meio de:
# novo dataframe com a cultura mais segurada em cada estado
uf_cult = pd.DataFrame(uf_cult).reset_index()
uf_cult
Responda: Para quais estados a soja é a principal cultura segurada?
d) Usando o comando: uf_cult.value_counts()
Responda: Qual foi a cultura mais segurada na maioria dos estados em 2023?
e) Eu mostrei em um dos exemplos como obter as médias de prêmio, subvenção e indenização por cultura. Execute:
# obter médias de prêmio, subvenção e indenização por cultura
df_c = df.groupby(['cultura'])[['premio','subvencao','indenizacao']].mean()
# criar um dataframe com médias de prêmio, subvenção e indenização por cultura
df_cult = pd.DataFrame(df_c).reset_index()
df_cult
Para escolher algumas culturas para mostrar, você pode usar o comando query no dataframe df_cult. Por exemplo, eu quero saber as médias para abacaxi, uva e tomate (passo esses nomes em uma lista):
df_cult.query('cultura == ["Abacaxi", "Uva", "Tomate"]')
Faça o mesmo para responder: Quais foram as médias de prêmio, subvenção e indenização para a cultura respondida na letra d? E quais foram as médias para a soja? Compare as duas culturas numa célula de texto abaixo dos comandos.
- No fim do seu notebook, salve os dados agregados por município numa planilha chamada "seguro-rural-municipios-2023.xlsx" (no exemplo eu fiz isso na subseção “Agregar as informações por município com o groupby”, nomeando os dados os dados agregados de “df2”, cujo comando shape deve retornar (3389, 12)).