Não é de hoje que pesquisadores da área discutem a mudança do paradigma de buscas na internet. Que está passando do “modelo Google”, a busca léxica na qual você insere palavras-chave e recebe links potencialmente úteis como resposta, para o “modelo ChatGPT”, a busca semântica em que você faz um pedido em linguagem natural e recebe também respostas textuais diretas, seguidas depois de links para fontes.
O novo modelo já é adotado por ferramentas diversas, como Bing Copilot, Duck Duck Go, e You, além de estar integrado a modelos de linguagem, a exemplo de ChatGPT, Gemini, Deep Seek, MariTalk, Qwen, entre outros.
Contudo, este paradigma parece estar evoluindo novamente. Em dezembro de 2024, o Google lançou a função “Deep Research” no Gemini, um agente de inteligência artificial generativa capaz de realizar buscas autônomas e extensas na internet para gerar relatórios detalhados.
Em fevereiro de 2025, a OpenAI apresentou ferramenta semelhante para o ChatGPT, surpreendendo pela capacidade de pesquisa aprofundada em conteúdos diversos, incluindo acadêmicos, produzindo relatórios robustos a partir das fontes consultadas. Paralelamente, outras empresas lançaram soluções semelhantes.
Para este texto, propus um teste de sete ferramentas de pesquisa profunda, comparando as principais opções gerais (ChatGPT, Gemini, Grok e Perplexity) e acadêmicas (Elicit, SciSpace e Undermind).
Para isso, desenvolvi um prompt simples, utilizado em todas as ferramentas, sobre desafios da implementação de inteligência artificial generativa no ensino básico, solicitando o agente a buscar tanto materiais acadêmicos quanto relatórios de entidades internacionais, como por exemplo a OECD e a Unesco.
O objetivo era ver como cada IA seleciona suas fontes e a qualidade do relatório final. Os resumos dos resultados gerados estão abaixo, incluindo o prompt inicial e o texto completo gerado por cada ferramenta no tópico de “qualidade”.
Ao final, refletimos sobre como esses sistemas podem transformar as revisões bibliográficas na pesquisa acadêmica.
Análise das ferramentas:
1. ChatGPT (Investigação/Deep Research)
Custo: US$ 20/mês (plano Plus)
Fontes pesquisadas: 30
Fontes usadas: 10
Fontes acadêmicas: 0
Extensão: 7.885 palavras (sem referências)
Qualidade: Relatório bem estruturado, com introdução, desafios globais da IA e estudos de caso, mas ignorou fontes acadêmicas.
2. Gemini (Deep Research)
Custo: R$ 96,99/mês (Google One, AI Premium 2 TB)
Fontes pesquisadas: 206
Fontes usadas: 58
Fontes acadêmicas: 5
Extensão: 3.564 palavras
Qualidade: Relatório organizado em tópicos, mas com repetições e falta de coesão; abordagem superficial, sem aprofundar exemplos específicos solicitados.
3. Grok (Deep Research)
Custo: Gratuito (US$ 20/mês plano Super Grok)
Fontes pesquisadas: 205
Fontes usadas: 12
Fontes acadêmicas: 1
Extensão: 1.136 palavras
Qualidade: Relatório direto e objetivo, mas genérico, com listas de pontos principais pouco desenvolvidos e referências pouco exploradas.
4. Perplexity (Pesquisa Profunda/Deep Research)
Custo: Gratuito (US$ 20/mês plano Profissional)
Fontes pesquisadas: 51
Fontes usadas: 5
Fontes acadêmicas: 0
Extensão: 1938 palavras
Qualidade: Revisão baseada em tópicos, porém com um uso maior de textos diretos e produzindo um bom texto, porém curto para temas complexos.
5. Elicit (Get a research report)
Custo: Gratuito (US$ 12/mês plano Plus)
Fontes pesquisadas: 10
Fontes usadas: 4 (todas acadêmicas)
Extensão: 2.171 palavras
Qualidade: Relatório focado em sínteses práticas em bullet points, útil para revisão rápida de literatura, mas carece de texto contínuo e aprofundamento crítico das fontes.
6. SciSpace (Deep Review)
Custo: US$ 90/mês (plano Advanced)
Fontes pesquisadas: 1.750 (305 relevantes)
Fontes usadas: 20 (todas acadêmicas)
Extensão: 2.190 palavras
Qualidade: Relatório detalhado e academicamente rigoroso, com citações diretas de periódicos, mas excessivamente baseado em tópicos e não cita fontes de alto impacto.
7. Undermind
Custo: Gratuito (US$ 20/mês plano Pro)
Fontes pesquisadas: Não especificado
Fontes usadas: ~10 (todas acadêmicas, periódicos de alto impacto)
Extensão: 1.936 palavras
Qualidade: Excelente organização temática e identificação de clusters de citação, com recursos visuais, mas produz mais um apanhado de fontes que um relatório em si.
O que a pesquisa profunda significa para a pesquisa acadêmica
De fato, houve exageros quanto à capacidade dessas novas ferramentas em entregar pesquisas de nível doutoral, já que frequentemente apresentam textos com pouca contextualização, atualizações insuficientes e uso inadequado de fontes, sendo avaliado em teste similar como inadequado mesmo para a pesquisa de notícias. Nosso teste evidenciou isso, com algumas ferramentas utilizando sites governamentais (fontes confiáveis), porém focando notícias em vez de relatórios e outros documentos.
Percebemos que as ferramentas gerais não priorizam fontes acadêmicas, mesmo isso estando explícito no prompt. Por exemplo, o ChatGPT não citou nenhum artigo científico, enquanto e Grok utilizou apenas uma fonte revisada por pares. A versão atualizada da ferramenta da Gemini foi a que melhor se saiu com 5 fontes acadêmicas, mas é ainda pouco comparado ao total de fontes pesquisadas.
Buscadores acadêmicos como Elicit, SciSpace e o próprio Perplexity mostraram melhor desempenho, porém ainda são limitados às bases abertas como Semantic Scholar, não acessando os principais indexadores, como Scopus ou Web of Science. Apenas o Undermind foi capaz de apresentar artigos de alto impacto em suas sugestões.
No atual momento, tais ferramentas apresentam limitações sérias, como opacidade (são “caixas-pretas”), possibilidade de “alucinações” (quando a IA gera uma resposta correta em termos de linguagem, mas imprecisa ou falsa em termos factuais) e imprecisões, vieses na seleção de fontes e incapacidade de replicação exata dos resultados (mesmo usando o mesmo prompt na mesma ferramenta os resultados são levemente diferentes a cada busca). Mesmo quando oferecem links compartilháveis, isso é insuficiente para revisões rigorosas, como as sistemáticas ou integrativas. Atualmente, essas ferramentas devem ser vistas como recursos complementares às técnicas tradicionais de revisão bibliográfica.
Além disso, tais sistemas podem agravar problemas já conhecidos das IAs generativas. Tais relatórios produzidos por algoritmos podem potencialmente ser vistos como verdades absolutas. Isso pode criar desafios para a agência humana, exigindo esforços adicionais em literacia digital para evitar percepções equivocadas sobre a complexidade dos debates acadêmicos e reconhecer as limitações e vieses desses relatórios.
Todavia, devemos reconhecer que tais relatórios poderão ser úteis para exploração inicial de tópicos, formulação de hipóteses e investigação preliminar. Nesse sentido, podem beneficiar especialmente cientistas iniciantes, gestores públicos e profissionais que precisam realizar buscas rápidas e eficientes.
Dada a significativa velocidade dessas evoluções, a academia precisa discutir qual seria a abordagem mais adequada. Uma solução híbrida, com participação humana ativa, parece ser o caminho mais promissor. Mas como exatamente isso deve ocorrer?
Atualmente, apenas inserimos comandos iniciais e recebemos os resultados. A IA decide tudo. Ferramentas como ChatGPT, SciSpace e Undermind sugerem caminhos interessantes ao fazerem mais perguntas antes de realizar a busca, mas ainda precisamos entender melhor como otimizar esse processo, sem perder de vista princípios fundamentais da integridade científica contemporânea, como confiabilidade, ética, replicabilidade, transparência e agência humana.