NLP-MCTI-PPF

O projeto NLP-MCTI-PPF é uma iniciativa do Ministério da Ciência, Tecnologia e Inovações (MCTI) em parceria com o Laboratório de Aprendizado de Máquina em Finanças e Organizações (LAMFO), no intuito de usar técnicas de processamento de linguagem natural (NLP) para analisar o portfólio de produtos financeiros de pesquisa (PPF) do Brasil para ajudar pesquisadores brasileiros a encontrar oportunidades de pesquisa dentro e fora do Brasil.

Com o uso de técnicas de NLP, o projeto pode analisar grandes conjuntos de dados de texto, como propostas de financiamento, relatórios de pesquisa e outros documentos relacionados ao PPF, e extrair informações relevantes como palavras-chave, autores, instituições e tópicos de pesquisa. Essas informações podem então ser usadas para criar um mapa conceptual que os pesquisadores possam explorar para encontrar oportunidades de financiamento e colaboração.

Além disso, o projeto NLP-MCTI-PPF também pode ajudar os pesquisadores a entender melhor as tendências e lacunas na pesquisa em seu campo, identificar novas áreas de interesse e desenvolver ideias inovadoras para futuras pesquisas.

No contexto de ajudar os pesquisadores a encontrar oportunidades, existem várias abordagens que podem ser úteis para processar e analisar dados de texto. Dentre elas, este projeto explora algumas das abordagens listadas a abaixo, no intuito de tentar automatizar o processo de seleção para estes pesquisadores:

Raspagem de dados sobre oportunidades: A raspagem de dados sobre oportunidades é uma técnica que permite coletar dados de diferentes fontes na internet, como sites de agências de financiamento, bases de dados de pesquisa e plataformas de compartilhamento de informações. Essa técnica é muito útil para reunir informações sobre oportunidades de pesquisa que podem ser difíceis de encontrar ou acessar de outras maneiras.
Pré-processamento: A primeira abordagem é o pré-processamento, que envolve a preparação dos dados de texto para análise. Isso pode incluir tarefas como limpeza de dados, remoção de ruído e formatação dos dados de maneira a torná-los mais acessíveis para análise.
Classificação de oportunidades: A segunda abordagem é a classificação de oportunidades, que envolve a atribuição de categorias ou rótulos a oportunidades de pesquisa com base em informações presentes nos dados de texto. Isso pode ajudar os pesquisadores a organizar as oportunidades que favorecem o pesquisador, incluindo atribuir de acordo com tópicos de interesse e a encontrar oportunidades que se encaixam em suas áreas de pesquisa.
Recomendação de oportunidades: A terceira abordagem é a Recomendação de oportunidades, que envolve o uso de algoritmos de aprendizado de máquina para sugerir oportunidades de pesquisa aos pesquisadores com base em seus interesses e histórico de pesquisa. Isso pode ajudar os pesquisadores a encontrar novas oportunidades que podem ser relevantes para suas pesquisas.
Geração de resumo sobre as oportunidades: A quarta abordagem é a geração de resumo sobre as oportunidades, que envolve a criação de resumos curtos e concisos das oportunidades de pesquisa para facilitar a compreensão e a avaliação dessas oportunidades pelos pesquisadores. Isso pode ajudar os pesquisadores a identificar rapidamente as oportunidades que são mais relevantes para suas pesquisas e a economizar tempo na leitura de documentos detalhados.

Este projeto proporciona várias linhas de pesquisa no intuito de ajudar pesquisadores brasileiros a encontrar oportunidades de pesquisa. Dentre as ferramentas utilizadas, o código está publicamente aberto e descrito no repositório do Github do projeto mcti-sefip/NLP-MCTI-PPF e utiliza-se da ferramentas como gradio e a plataforma hugging-face na organização chamada NLP Project LAMFO - UnB - MCTI para disponibilizar versões demos e descrições de modelos de algum dos resultados desta pesquisa na organização.

Raspagem de dados

A raspagem de dados envolve a utilização de scripts (ou programas) para “raspar” informações de sites da web sobre oportunidades de financiamento, este salva dados em um formato acessível como um arquivo contendo o banco de dados com informações sobre estas oportunidades. Isso permitiu aos pesquisadores do projeto coletar grandes quantidades de dados de forma automatizada e rápida, economizando tempo e esforço.

Além disso, a raspagem de dados sobre oportunidades também pode ser combinada com técnicas de processamento de linguagem natural (NLP) para analisar os dados coletados e extrair informações relevantes, como palavras-chave, autores, instituições e tópicos de pesquisa.

Revisão sistemática da Literatura

Uma revisão sistemática da literatura é um método de pesquisa que visa identificar, selecionar e avaliar de maneira sistemática todos os estudos relevantes sobre um tópico específico. O objetivo de uma revisão sistemática é fornecer uma visão geral da evidência disponível sobre um tópico e fornecer conclusões baseadas em uma análise sistemática e rigorosa dos estudos existentes.

Neste projeto, a revisão sistemática da literatura foi aplicada em algumas das linhas de pesquisa, dentre elas: classificação de oportunidades, recomendação de oportunidades e síntese de texto sobre oportunidades.

A revisão sistemática da literatura foi importante para iniciar o projeto de pesquisa por vários motivos:

Fornece uma visão geral da evidência disponível sobre o tópico de pesquisa: Ao realizar uma revisão sistemática da literatura, é possível obter uma visão geral dos estudos existentes sobre o tópico de pesquisa e compreender os principais avanços e descobertas na área. Isso pode ajudar a definir o contexto do projeto de pesquisa e a identificar lacunas na literatura que o projeto de pesquisa pode preencher.
A revisão sistemática da literatura permite identificar as principais fontes de dados e métodos de pesquisa utilizados nos estudos existentes sobre o tópico de pesquisa. Isso pode ser útil para definir a abordagem de pesquisa e os métodos que serão utilizados no projeto de pesquisa.
Ajuda a evitar a replicação ou aperfeiçoamento de pesquisas já realizadas.
Fornece um ponto de partida para a elaboração de hipóteses e questionamentos de pesquisa permitindo identificar o que pode ser útil para definir as hipóteses e os questionamentos de pesquisa do projeto.

Em resumo, a revisão sistemática da literatura é uma etapa importante na elaboração de um projeto de pesquisa, pois ajuda a definir o contexto do projeto, identificar fontes de dados e métodos de pesquisa, evitar a replicação de pesquisas já realizadas e atender aos requisitos de agências de fomento e outras instituições.

Neste projeto, foi realizado uma linha de pesquisa com o objetivo de disponibilizar uma ferramenta de pesquisa de artigos científicos baseada no semantic scholhar e um modelo para classificação artigos relevantes para a área de pesquisa proposta pelos pesquisadores deste projeto disponibilizada como jupyter notebook que pode ser acessado neste notebook. Este tem como intuito ajudar a retornar artigos relevantes para cada linha de pesquisa proposta do projeto de forma a reduzir o tempo necessário para efetuar a revisão sistemática da literatura completa. O modelo se baseia no artigo publicado de (Kely de Melo. et al. 2022) para a conferencia WEBIST 2022 no qual ganhou título de “Best Paper Award” na 18a edição.

Classificação de oportunidades

A classificação de oportunidades pode ser realizada de várias maneiras, como o uso de algoritmos de aprendizado de máquina para analisar os dados de texto e atribuir rótulos automaticamente, ou o uso de técnicas de processamento de linguagem natural (NLP) para extrair informações relevantes dos dados de texto e classificá-las manualmente.

A classificação de oportunidades pode ser aplicada a vários tipos de dados, como propostas de financiamento, relatórios de pesquisa e outros documentos relacionados a oportunidades de pesquisa. Além disso, a classificação de oportunidades também pode ser combinada com outras técnicas de análise de dados, como a raspagem de dados e a recomendação de oportunidades, para fornecer uma visão mais ampla das oportunidades disponíveis e ajudar os pesquisadores a encontrar oportunidades relevantes para suas pesquisas.

Neste projeto, várias tentativas de usar modelos de linguagem natural para realizar a classificação de oportunidades de pesquisa foram efetuadas e disponibilizadas como artigo publicado no WEBIST 2022 (Rocha. et al. 2022). Esses modelos são treinados com grandes conjuntos de dados de texto etiquetados manualmente, como propostas de financiamento, relatórios de pesquisa e outros documentos relacionados a oportunidades de pesquisa. Os modelos e experimentos estão descritos com mais detalhes como model card no repositório exposto pela plataforma Hugging face intitulada unb-lamfo-nlp-mcti/NLP-Classification-MCTI. Para a classificação de oportunidades, foi feito um protótipo deste utilizando a ferramenta gradio como space na plataforma Hugging face com o nome de unb-lamfo-nlp-mcti/NLP-W2V-CNN-Multi ou como demonstrada abaixo.

Síntese de texto para oportunidades

A síntese de texto é o processo de criação de resumos curtos e concisos de um texto mais longo. Isso pode ser útil para ajudar os pesquisadores a entender rapidamente o conteúdo de um documento de pesquisa ou para criar resumos de oportunidades de pesquisa que possam ser facilmente compreendidos e avaliados pelos pesquisadores.

Existem várias tentativas de usar modelos de aprendizado de máquina para realizar a síntese de texto. Um exemplo é o uso de modelos de seqüência-para-seqüência, que são treinados para gerar resumos a partir de um texto de entrada. Esses modelos são treinados com grandes conjuntos de dados de texto etiquetados manualmente, como artigos científicos e relatórios de pesquisa, e são capazes de aprender a gerar resumos que capturam a essência do texto de entrada.

Outra técnica comum é o uso de modelos de aprendizado não supervisionado, como agrupamento de dados ou modelos de tópico, para criar resumos a partir de um texto de entrada. Esses modelos podem ajudar a identificar padrões nos dados de texto e a selecionar os trechos mais relevantes do texto para incluir no resumo.

Os modelos pesquisados para a síntese de texto para a sumarização das oportunidades de financiamento se baseiam na revisão sistemática de (Cajueiro et al. 2023). Este também está descrito como model card no repositório exposto pela plataforma Hugging face denotada como unb-lamfo-nlp-mcti/NLP-ATS-MCTI, a demo para estes modelos para sumarização de textos pode ser encontrado como unb-lamfo-nlp-mcti/NLP-ATS-MCTI ou pode ser testada abaixo.

Recomedação de oportunidades

A recomendação de oportunidades é o processo de sugerir oportunidades de pesquisa aos pesquisadores com base em seus interesses e histórico de pesquisa. Isso pode ser útil para ajudar os pesquisadores a encontrar novas oportunidades que possam ser relevantes para suas pesquisas e para aumentar a eficiência do processo de busca de oportunidades.

É possível utilizar modelos de aprendizado de máquina para realizar a recomendação de oportunidades de maneira mais automatizada. Por exemplo, modelos de agrupamento de dados ou modelos de tópico podem ser utilizados para agrupar oportunidades de acordo com tópicos similares e sugerir oportunidades aos pesquisadores com base em seus interesses e histórico de pesquisa.

Nesta parte do projeto, o modelo pesquisado é baseado no estudo de (Moraes Souza. et al., n.d.) e descrito com mais detalhes no model card do hugging face com o título de unb-lamfo-nlp-mcti/NLP-Recommendation-MCTI. A demonstração da aplicação do modelo encontra-se em unb-lamfo-nlp-mcti/nlp-mcti-lda-recommender ou pode ser verificada abaixo.

Referências

Cajueiro, Daniel O., Arthur G. Nery, Igor Tavares, Maísa K. De Melo, Silvia A. dos Reis, Li Weigang, and Victor R. R. Celestino. 2023. “A Comprehensive Review of Automatic Text Summarization Techniques: Method, Data, Evaluation and Coding.” arXiv. https://doi.org/10.48550/ARXIV.2301.03403.

Kely de Melo., Maísa, Allan Victor Almeida Faria., Li Weigang., Arthur Gomes Nery., Flávio Augusto R. de Oliveira., Ian Teixeira Barreiro., and Victor Rafael Rezende Celestino. 2022. “Few-Shot Approach for Systematic Literature Review Classifications.” INSTICC; SciTePress. https://doi.org/10.5220/0011526400003318.

Moraes Souza., João Gabriel de, Daniel Oliveira Cajueiro., Johnathan de O. Milagres., Vincius de Oliveira Watanabe., Vtor Bandeira Borges., and Victor Rafael Celestino. n.d. “A Comprehensive Review of Recommendation Systems: Method, Data, Evaluation and Coding.”

Rocha., Carlos Alberto Alvares, Marcos Vinícius Pinheiro Dib., Li Weigang., Andrea Ferreira Portela Nunes., Allan Victor Almeida Faria., Daniel Oliveira Cajueiro., Maísa Kely de Melo., and Victor Rafael Rezende Celestino. 2022. “Using Transfer Learning to Classify Long Unstructured Texts with Small Amounts of Labeled Data.” INSTICC; SciTePress. https://doi.org/10.5220/0011527700003318.

Em parceria com