2004-12-16
Rede de Blogs e Politicos
Da mesma forma que fiz um pequeno estudo da palavra "novel" na PubMed, fiz também um estudozinho da proximidade entre alguns blogs e políticos na web. Criei dois conjuntos:
B = {contra a corrente, abrupto, pastilhas, aviz, bomba inteligente, a causa foi modificada, memória inventada, barnabé , gato fedorento, ritz, blog de esquerda, causa liberal, janela indiscreta, coluna infame}
P = {Ramalho Eanes , Mário Soares , Freitas do Amaral , Cavaco e Silva , António Guterres , Durão Barroso , Jorge Sampaio , Álvaro Cunhal , Ferro Rodrigues , Paulo Portas, Santana Lopes}
Depois calculei uma medida de proximidade que é uma probabilidade de co-ocorrência de termos (nomes) destes conjuntos em páginas web indexadas pelo Altavista:
em que hits quer dizer o numero de páginas da web indexadas no Altavista em que a expressão acontece. Neste caso, a medida de proximidade é o racio entre o numero de páginas em que o blog bi co-ocorre com o político pj e o numero de páginas total em que pelo menos um destes ocorre. É assim uma probabilidade de um blog co-ocorrer com um político dado que um deles ocorreu.
A figura em baixo mostra a distribuição de proximidade de co-ocorrência de cinco blogues com o conjunto de políticos utilizado. Podemos aqui vêr, por exemplo, que quase 5% de páginas do abrupto ou que mencionam o abrupto, falam de Durão Barroso, ou que mais do 6% de páginas relacionadas com o blog de esquerda (e 3.5% do contra-a-corrente) falam de Paulo Portas...
Com estes valores de proximidade baseada em co-ocorrência, calculei também a correlação entreos vários blogues. Isto é, dois blogues são considerados muito correlacionados se a sua distribuição de proximidade no conjunto de políticos é semelhante; simplificando, quando falam na mesma proporção dos mesmos políticos.
A figura em baixo mostra o grafo de correlação para os vários blogues mostrando apenas os vertices com correlação maior que 0.7:
A figura em baixo mostra o grafo de correlação para os vários blogues mostrando apenas os vertices com correlação maior que 0.8:
Ambas as figuras mostram uma rede de associação de blogs mediante a sua proximidade (medida em co-ocorrência) ao conjunto de políticos utilizado. Acho interessante a grande correlação entre o blog de esquerda e o contra-a-corrente!
Finalmente, também calculei a proximidade de co-ocorrência entre estes políticos na web como é vista pelo Altavista (estamos a falar de milhões de páginas...).
Esta proximidade (2) também pode ser vista como uma rede de associações. A figura em baixo mostra esta rede com todos os vertices superiores a 1%. Isto é, um vertice entre dois políticos existe se estes co-ocorrerem em 1% das páginas.
A figura em baixo mostra esta rede com todos os vertices superiores a 5%. Isto é, um vertice entre dois políticos existe se estes co-ocorrerem em 5% das páginas.
A figura em baixo mostra esta rede com todos os vertices superiores a 10%. Isto é, um vertice entre dois políticos existe se estes co-ocorrerem em 10% das páginas.
Talvez isto dê uma prespectiva diferente às relações entre blogs, entre políticos e entre ambos como são vistas da web!
Nota: muitos outros blogs podiam e deveriam constar deste estudozinho, talvez se eu arranjar alguem interessado a ajudar, se possa fazer algo com todos os blogs nacionais...
B = {contra a corrente, abrupto, pastilhas, aviz, bomba inteligente, a causa foi modificada, memória inventada, barnabé , gato fedorento, ritz, blog de esquerda, causa liberal, janela indiscreta, coluna infame}
P = {Ramalho Eanes , Mário Soares , Freitas do Amaral , Cavaco e Silva , António Guterres , Durão Barroso , Jorge Sampaio , Álvaro Cunhal , Ferro Rodrigues , Paulo Portas, Santana Lopes}
Depois calculei uma medida de proximidade que é uma probabilidade de co-ocorrência de termos (nomes) destes conjuntos em páginas web indexadas pelo Altavista:
prox (bi, pj)=hits (bi AND pj)/hits (bi OR pj) (1)
em que hits quer dizer o numero de páginas da web indexadas no Altavista em que a expressão acontece. Neste caso, a medida de proximidade é o racio entre o numero de páginas em que o blog bi co-ocorre com o político pj e o numero de páginas total em que pelo menos um destes ocorre. É assim uma probabilidade de um blog co-ocorrer com um político dado que um deles ocorreu.
A figura em baixo mostra a distribuição de proximidade de co-ocorrência de cinco blogues com o conjunto de políticos utilizado. Podemos aqui vêr, por exemplo, que quase 5% de páginas do abrupto ou que mencionam o abrupto, falam de Durão Barroso, ou que mais do 6% de páginas relacionadas com o blog de esquerda (e 3.5% do contra-a-corrente) falam de Paulo Portas...
Com estes valores de proximidade baseada em co-ocorrência, calculei também a correlação entreos vários blogues. Isto é, dois blogues são considerados muito correlacionados se a sua distribuição de proximidade no conjunto de políticos é semelhante; simplificando, quando falam na mesma proporção dos mesmos políticos.
A figura em baixo mostra o grafo de correlação para os vários blogues mostrando apenas os vertices com correlação maior que 0.7:
A figura em baixo mostra o grafo de correlação para os vários blogues mostrando apenas os vertices com correlação maior que 0.8:
Ambas as figuras mostram uma rede de associação de blogs mediante a sua proximidade (medida em co-ocorrência) ao conjunto de políticos utilizado. Acho interessante a grande correlação entre o blog de esquerda e o contra-a-corrente!
Finalmente, também calculei a proximidade de co-ocorrência entre estes políticos na web como é vista pelo Altavista (estamos a falar de milhões de páginas...).
prox (pi, pj)=hits (pi AND pj)/hits (pi OR pj) (2)
Esta proximidade (2) também pode ser vista como uma rede de associações. A figura em baixo mostra esta rede com todos os vertices superiores a 1%. Isto é, um vertice entre dois políticos existe se estes co-ocorrerem em 1% das páginas.
A figura em baixo mostra esta rede com todos os vertices superiores a 5%. Isto é, um vertice entre dois políticos existe se estes co-ocorrerem em 5% das páginas.
A figura em baixo mostra esta rede com todos os vertices superiores a 10%. Isto é, um vertice entre dois políticos existe se estes co-ocorrerem em 10% das páginas.
Talvez isto dê uma prespectiva diferente às relações entre blogs, entre políticos e entre ambos como são vistas da web!
Nota: muitos outros blogs podiam e deveriam constar deste estudozinho, talvez se eu arranjar alguem interessado a ajudar, se possa fazer algo com todos os blogs nacionais...
Comments:
<< Home
Perspectiva talvez dê, no asserção do "aspecto que apresentam os objectos vistos de longe". Mas mais nada. Qual o significado hipotético de tais resultados?
Isto é capaz de ser a minha formação a falar (biologia), mas pergunto a mim mesmo se uma análise cladística não daria resultados mais significativos (ou pelo menos claros).
Ora gostei muito do lugar da Janela. Bem independente mas a caminho da modificação da causa e da invenção da memória e o menino da contra-corrente tinha de passar por lá para visitar o nosso “biltre de estimação” “;O)
<< Home
Post a Comment