Reprodutibilidade e referências

Conceitos de comunicação de dados

Hadrien Lacroix

Curriculum Manager

Relatório escrito

 

Um relatório deve ser claro e reproduzível.

Conceitos de comunicação de dados

Exemplo de reprodutibilidade

 

  • Assar um bolo

    • Receita
    • Ingredientes crus
    • Nosso forno e medidores de cozinha
    • Bolo com sabor semelhante
  • Projeto de dados

    • Rodar a análise de novo — mesmos resultados

 

ícone de receita de cozinha

Conceitos de comunicação de dados

Exemplo de replicabilidade

  • Assar um bolo
    • Próprios utensílios
    • Próprios ingredientes
  • Projeto de dados
    • Ambiente diferente
Conceitos de comunicação de dados

Vantagens da reprodutibilidade e replicabilidade

 

  • Evita retrabalho
  • Constrói sobre trabalhos prévios
  • Foco em novos desafios
  • Revisão por pares
  • Agnóstico a ferramentas
Conceitos de comunicação de dados

Boas práticas

  1. Registre como os resultados foram gerados
    • Documente bem os scripts
      • Comentários no código
    • Liste pacotes e ambiente usados
    • Controle de versão
Conceitos de comunicação de dados

Boas práticas

  1. Registre como os resultados foram gerados
  2. Evite manipulação manual de dados
    • Versionamento de dados
    • Guarde dados brutos e passos intermediários
    • Adapte e resolva problemas
    • Exemplo: imputação de dados
      • imputar faltantes pela média
      • salvar e fechar o editor
      • como saber quais valores foram trocados?
Conceitos de comunicação de dados

Boas práticas

  1. Registre como os resultados foram gerados
  2. Evite manipulação manual de dados
  3. Controle a aleatoriedade
    • Sementes aleatórias em pipelines de ML
    • Controle variáveis de confusão
Conceitos de comunicação de dados

Boas práticas

  1. Registre como os resultados foram gerados
  2. Evite manipulação manual de dados
  3. Documente a aleatoriedade
  4. Interpretabilidade
    • Entender a causa de uma decisão ou prever resultados do modelo
    • História com narrativa convincente
    • Ligação com reprodutibilidade
1 Molnar C. Interpretable Machine Learning. 2019.
Conceitos de comunicação de dados

Boas práticas

  1. Registre como os resultados foram gerados
  2. Evite manipulação manual de dados
  3. Documente a aleatoriedade
  4. Interpretabilidade
  5. Cite a bibliografia corretamente
Conceitos de comunicação de dados

Referências

 

  • Uma citação é a info básica para identificar e localizar uma publicação específica
Conceitos de comunicação de dados

Referências

 

  • Estilos diferentes, mesma lógica
    • Livro: Nome do autor (Ano). Título. Editora.
    • Artigo de periódico: Nome do autor. (Ano) 'Título do artigo.' Título do periódico, volume, número, páginas.
    • Site: Nome do autor. Data, 'Título da página/obra.' Título do site, local

 

  • Estilo APA:
    • Citações no texto (autor, data)
Conceitos de comunicação de dados

Referência

  • Ferramentas de gestão de referências
    • Facilita o controle
    • Troca entre estilos
    • Busca referências online
    • Opções:
      • EndNote
      • Mendeley
      • RefWorks
Conceitos de comunicação de dados

Referências

  • Contexto de negócios
    • Menos rígido
    • Mais simples (hiperlink)
    • ==> info disponível e recuperável
Conceitos de comunicação de dados

Vamos praticar!

Conceitos de comunicação de dados

Preparing Video For Download...