GitHub libera 3TB de dados sobre projetos open-source
Em parceria com o Google, o GitHub anunciou o lançamento de uma coleção incrível de dados sobre projetos open-source. Os mais de 3TB (terabytes) contêm dados de mais de 2.8 milhões de projetos, incluindo mais de 145 milhões de commits únicos. E o mais legal, tudo isso está disponível no BigQuery, um serviço de banco de dados do Google que permite lidar com um grande volume de dados.
Ter acesso a esse tipo de dado é muito legal, pois podemos fazer queries dinâmicas, como por exemplo: Projetos mais populares utilizando o framework X ou Y, quais projetos possuem mais contribuidores, e por aí vai. Basta usar a imaginação e a necessidade.
O GitHub já possui o projeto GitHub Archive, lançado em 2012, que já disponibiliza uma série de dados sobre projetos open-source. Essa parceria com o Google agora expande ainda mais o projeto.
Abaixo segue um exemplo retirado do próprio BigQuery, fazendo uma consulta para saber quais são os pacotes Go mais utilizados: SELECT REGEXP_EXTRACT(line, r'"([^"]+)"') AS url, COUNT(*) AS count FROM FLATTEN( ( SELECT SPLIT(SPLIT(REGEXP_EXTRACT(content, r'.*import\s*[(]([^)]*)[)]'), '\n'), ';') AS line, FROM ( SELECT id, content FROM [bigquery-public-data:github_repos.sample_contents] WHERE REGEXP_MATCH(content, r'.*import\s*[(][^)]*[)]')) AS C JOIN ( SELECT id FROM [bigquery-public-data:github_repos.sample_files] WHERE path LIKE '%.go' GROUP BY id) AS F ON C.id = F.id), line) GROUP BY url HAVING url IS NOT NULL ORDER BY count DESC LIMIT 10
Mais uma excelente iniciativa do GitHub e do Google fornecendo dados para a comunidade. Agora basta entrar lá no BigQuery para fazer suas pesquisas :)