dbt column level lineage

This project computes the column lineage of the dbt testing project jaffle_shop thanks to SQLGlot.

dbt model

As an example of the lineage, let’s take the model stg_orders and the output column customer_id:

with source as (

    select * from {{ ref('raw_orders') }}

),

renamed as (

    select
        id as order_id,
        user_id as customer_id,
        order_date,
        status

    from source

)

select * from renamed

In this model:

[Read more]

Quitter Paris, mais pour aller où ?

Intro

Quelle est la meilleure ville pour s’installer en dehors de Paris ? Chacun a sa meilleure réponse, basée sur un certain nombre de critères comme la météo, l’emploi, l’éloignement, le coût de la vie, …

Je propose dans cet essai d’aller récupérer ces données et de les visualiser.

Quelles sont les plus grandes villes de France ?

Nous allons utiliser Wikidata pour récupérer les 20 plus grandes villes de France, puis nettoyer les coordonnées pour pouvoir les utiliser par la suite. On obtient le tableau ci-dessous (Paris est enregistrée séparément). Pour voir les fonctions utilisées, vous pouvez retrouver le fichier sur le repo.

[Read more]

Analyse sémantique des partis politiques francais

Introduction

Nous allons analyser le contenu texte de 3 partis politiques francais pour voir comment ils diffèrent. Nous pourrons observer : les réseaux lexicaux, les sentiments, les sujets abordés. À la fin, cela nous permettra d’envisager le machine learning pour reconnaitre la couleur politique des textes.

Le code source est disponible sur https://github.com/paul-chrlt/political-words

Acquisition des données : scrapping

La première étape consistera à automatiser la lecture des sites internet. Pour chacun :

[Read more]