Hoje vi no reader um paper que três pesquisadores do Google fizeram para o IEEE comentando o que acham ser mais promissor para se extrair semântica de textos. Foi uma das raras ocasiões em que tive a paciência de ler 5 páginas de artigo técnico em inglês na integra. Geralmente passo o olho e quando surge alguma coisa que chama a atenção paro, leio algumas frases e passo adiante. Mas o fato é que achei o texto tanto interessante quanto bem escrito. Vou destacar aqui akguns pontos que achei relevante:
O título do artigo “Unreasonable Effectiveness of data” é uma paráfrase do título de outro artigo “Unreasonable Effectiveness of Mathematics in the Natural Scienses”. Esse último exalta a matemática e o primeiro os dados. Na verdade só quando você chega ao final do artigo é que você compreende totalmente o sentido dessa homenagem.
A Universidade de Brown tem um Corpus com 1.000.000 de palavras em inglês. Em 2006 o Google lançou um Corpus com 1.000.000.000.000 de palavras.
A terceira coisa que me chamou a atenção foi uma menção ao trabalho de James Hays e Alexei Efros. Eles lançaram um artigo chamado “Scene Completion Using Millions of Photographs” em que apresentam um novo algorítimo para completar uma imagem. A idéia é que em um milhão de imagens você vai encontrar imagens que são semelhantes entre si então alguma delas vai certamente conseguir completar o que está faltando em uma imagem com perfeição. Fiquei impressionado quando vi: http://graphics.cs.cmu.edu/projects/scene-completion/ e http://cybertron.cg.tu-berlin.de/pdci08/scenecompletion/results.htm. Um dado curioso ainda sobre esse tema é que o número de fotografias diferentes possíveis de existir de 2 megabytes é de 256 elevado a 2.000.000.
Stefan Schoenmackers, Oren Etzioni e Daniel S. Weld publicaram um artigo mostrando que com lógica relacional e um Corpus de 100.000.000 de palavras é possível reponder a pergunta “Que vegetais ajudam a prevenir a osteoporose?” se no texto que se estiver procurando tiver as expressões “Espinafre é rico em cálcio” e “Cálcio ajuda a prevenir a osteoporose”.
Um processo de criação de uma ontologia completa sobre um livro de química chamado projeto Halo conseguiu fazer um excelente trabalho mas ao custo de 10.000 dólares por página.
No resto do artigo os autores falam como é difícil extrair semântica, falam de algumas abordagens que surgiram ao longo dos anos e terminam concluindo que o promissor mesmo é construir um processo automático de aprendizagem não supervisionado que extraia semântica através de dados não rotulados e representar esses dados com um modelo não paramétrico ao invés de indexar.