O projeto Corpus Brasileiro, do grupo GELC, que está sediado no Centro de Pesquisas, Recursos e Informação de Linguagem (CEPRIL), Programa de Pós-Graduação em Linguística Aplicada (LAEL) da PUCSP, com apoio da FAPESP, visa a construir e disponibilizar online o Corpus Brasileiro, que será composto por um bilhão de palavras de português brasileiro contemporâneo, de vários tipos de linguagem. Um corpus, segundo a Linguística de Corpus, é uma coletânea de textos falados e escritos coletados criteriosamente para serem uma amostra de uma língua ou variedade linguística (Berber Sardinha, 2004). Atualmente, há uma lacuna no tocante a um corpus de português da dimensão que propomos, com variedade de gêneros e registros, que seja disponível na rede. Usaremos bases de dados SQL para armazenamento do corpus. O usuário terá acesso a informações sobre freqüência de ocorrência dos termos de sua busca além de linhas de concordância onde os termos ocorrem; ele não terá acesso ao texto integral, pois isso violaria leis de direitos autorais. A necessidade de atingir o nível de um bilhão de palavras se deve ao fato de que, sendo um corpus geral apenas uma amostra de uma população imensa (Berber Sardinha, 2004), quanto maior e mais variada essa amostra, mais representativa ela será. O impacto social do Corpus Brasileiro pode ser significativo, colocando ao dispor dos cidadãos do país e do exterior uma vasta quantidade de informação sobre a língua portuguesa. Os usuários do corpus incluem lingüistas, pesquisadores da linguagem, professores de língua materna, estrangeira, de redação, jornalistas, escritores, roteiristas, publicitários, alunos de diversos níveis, dicionaristas, gramáticos e uma ampla gama de profissionais que lidam com a língua em uso.


 

O projeto

O Corpus Brasileiro tem a proposta de ser um corpus acessível a todos os brasileiros, por meio de uma interface simples e poderosa de acesso ao maior acervo da língua portuguesa brasileira existente.