Notícia
Cientistas propõem plataforma aberta para gerenciar as vastas quantidades de dados produzidos na pesquisa química
Cientistas da Escola Politécnica Federal de Lausanne propõem criação de plataforma com base em princípios de acessibilidade, colaboração e eficiência
Getty Images
Fonte
EPFL | Escola Politécnica Federal de Lausanne
Data
domingo, 10 abril 2022 16:30
Áreas
Bioinformática. Bioquímica. Ciência de Dados. Química. Pesquisa e Desenvolvimento.
Um dos aspectos mais desafiadores da química moderna é o gerenciamento de dados. Por exemplo, ao sintetizar um novo composto, os cientistas passarão por várias tentativas para encontrar as melhores condições para uma dada reação, gerando no processo grandes quantidades de dados brutos. Esses dados têm um valor incrível, pois, como os humanos, os algoritmos de aprendizado de máquina podem aprender muito com experimentos fracassados ou parcialmente bem-sucedidos.
A prática atual é, no entanto, publicar apenas os experimentos mais bem-sucedidos, já que nenhum humano pode processar significativamente a enorme quantidade de experimentos fracassados. Mas a Inteligência Artificial mudou isso; é exatamente o que esses métodos de aprendizado de máquina podem fazer, desde que os dados sejam armazenados em um formato adequado para que qualquer outra pessoa possa usá-los.
“Durante muito tempo, precisávamos comprimir informações devido à contagem limitada de páginas em artigos de periódicos impressos”, disse o professor Dr. Berend Smit, que dirige o Laboratório de Simulação Molecular da Escola Politécnica Federal de Lausanne (EPFL) Valais Wallis, na Suíça. “Hoje, muitos periódicos nem têm mais edições impressas; no entanto, os químicos ainda lutam com problemas de reprodutibilidade porque faltam detalhes cruciais nos artigos de periódicos. Os pesquisadores ‘perdem’ tempo e recursos replicando experimentos ‘fracassados’ de autores e lutam para construir em cima dos resultados publicados, pois os dados ‘brutos’ raramente são publicados”.
Mas o volume não é o único problema aqui; a diversidade de dados é outra: os grupos de pesquisa utilizam ferramentas diferentes, como o software Electronic Lab Notebook, que armazena dados em formatos proprietários que às vezes são incompatíveis entre si. Essa falta de padronização torna quase impossível para os grupos compartilharem dados.
Recentemente, o Dr. Berend Smit, juntamente com o Dr. Luc Patiny e o doutorando Kevin Jablonka, publicou uma perspectiva na revista científica Nature Chemistry apresentando uma plataforma aberta para todo o fluxo de trabalho da química: desde o início de um projeto até sua publicação.
Os cientistas imaginam a plataforma como ‘perfeitamente’ integrando três etapas cruciais: coleta de dados, processamento de dados e publicação de dados – tudo com custo mínimo para os pesquisadores. O princípio orientador é que os dados devem ser justos: facilmente localizáveis, acessíveis, interoperáveis e reutilizáveis. “No momento da coleta de dados, os dados serão convertidos automaticamente em um formato FAIR padrão, possibilitando a publicação automática de todos os experimentos ‘fracassados’ e parcialmente bem-sucedidos juntamente com o experimento mais bem-sucedido”, disse o professor Smit.
Mas os autores vão um passo além, propondo que os dados também devem ser acionáveis por máquina. “Estamos vendo cada vez mais estudos de ciência de dados em química”, disse Kevin Jablonka. “De fato, resultados recentes em aprendizado de máquina tentam resolver alguns dos problemas que os químicos acreditam serem insolúveis. Por exemplo, nosso grupo fez um enorme progresso na previsão de condições ideais de reação usando modelos de aprendizado de máquina. Mas esses modelos seriam muito mais valiosos se também pudessem aprender as condições de reações que falham; caso contrário, permanecem tendenciosos porque apenas as condições de sucesso são publicadas”, completou o pesquisador.
Finalmente, os autores propõem cinco passos concretos que o campo deve seguir para criar um plano de gerenciamento de dados FAIR:
- A comunidade química deve adotar seus próprios padrões e soluções existentes;
- Os periódicos precisam tornar obrigatória a deposição de dados brutos reutilizáveis, onde existam padrões da comunidade;
- É importante a publicação de experimentos ‘fracassados’;
- Softwares que não permitem exportar todos os dados em um formulário aberto acionável por máquina devem ser evitados;
- A pesquisa com uso intensivo de dados deve entrar em nossos currículos.
“Achamos que não há necessidade de inventar novos formatos de arquivo ou tecnologias. Em princípio, toda a tecnologia está lá e precisamos abraçar as tecnologias existentes e torná-las interoperáveis”, destacou o Dr. Luc Patiny.
Os autores também ressaltam que apenas armazenar dados em qualquer software – a tendência atual – não significa necessariamente que humanos e máquinas possam reutilizar os dados. Em vez disso, os dados devem ser estruturados e publicados em um formato padronizado e também devem conter contexto suficiente para permitir ações orientadas por dados.
“Nossa perspectiva oferece uma visão do que pensamos ser os principais componentes para preencher a lacuna entre dados e o aprendizado de máquina para problemas centrais em química. Também fornecemos uma solução de ciência aberta na qual a EPFL pode assumir a liderança”, concluiu o Dr. Berend Smit.
Acesse o artigo científico completo (em inglês).
Acesse a notícia completa na página da Escola Politécnica Federal de Lausanne (em inglês).
Fonte: Nik Papageorgiou, EPFL. Imagem: Getty Images.
Em suas publicações, o Canal Farma da Rede T4H tem o único objetivo de divulgação científica, tecnológica ou de informações comerciais para disseminar conhecimento. Nenhuma publicação do Canal Farma tem o objetivo de aconselhamento, diagnóstico, tratamento médico ou de substituição de qualquer profissional da área da saúde. Consulte sempre um profissional de saúde qualificado para a devida orientação, medicação ou tratamento, que seja compatível com suas necessidades específicas.
Os comentários constituem um espaço importante para a livre manifestação dos usuários, desde que cadastrados no Canal Farma e que respeitem os Termos e Condições de Uso. Portanto, cada comentário é de responsabilidade exclusiva do usuário que o assina, não representando a opinião do Canal Farma, que pode retirar, sem prévio aviso, comentários postados que não estejam de acordo com estas regras.
Por favor, faça Login para comentar