Las noticias: Hoy, los investigadores que colaboran en varias organizaciones lanzaron el conjunto de datos de investigación abierta Covid-19 (CORD-19), que incluye más de 24,000 trabajos de investigación de revistas revisadas por pares, así como fuentes como bioRxiv y medRxiv (sitios web donde los científicos pueden publicar publicaciones no revisadas por pares) papeles de preimpresión). La investigación cubre SARS-CoV-2 (el nombre científico del coronavirus), Covid-19 (el nombre científico de la enfermedad) y el grupo de coronavirus. Representa la colección más extensa de literatura científica relacionada con la pandemia en curso y continuará actualizándose en tiempo real a medida que se publique más investigación.
Cómo se unió: La base de datos se compiló a solicitud de la Oficina de Política de Ciencia y Tecnología (OSTP) de la Casa Blanca a través de una colaboración entre tres organizaciones. La Biblioteca Nacional de Medicina (NLM) en los Institutos Nacionales de Salud proporcionó acceso a publicaciones científicas existentes; Microsoft usó sus algoritmos de curación de literatura para encontrar artículos relevantes; e investigación sin fines de lucro, el Instituto Allen de Inteligencia Artificial (AI2) los convirtió de páginas web y archivos PDF a un formato estructurado que puede ser procesado por algoritmos. La base de datos ahora está disponible en Sitio web de Académico Semántico de AI2.
Puedes leer todos nuestros cobertura del brote de coronavirus / Covid-19 gratis, y también regístrate en nuestro boletín de coronavirus. Pero por favor considera suscribirte para apoyar nuestro periodismo sin fines de lucro.
Lo que ya se ha hecho: Como parte de su servicio de Semantic Scholar, que permite a la comunidad científica buscar fácilmente en la literatura académica, AI2 ya ha procesado el nuevo corpus utilizando las mismas técnicas de extracción y análisis de información que aplica a todas las investigaciones nuevas. Está surgiendo piezas clave de información, como autores, métodos, datos y citas, para facilitar a los científicos evaluar rápidamente cómo cada artículo se suma a la investigación existente.
También está utilizando modelos de lenguaje natural de última generación como ELMo y BERT para trazar las similitudes entre los documentos. Este mapa ahora está impulsando una nueva característica en Semantic Scholar que permite a los investigadores crear un feed de investigación personalizado basado en sus intereses.
Por qué es importante: Los científicos se apresuran contrarreloj para responder preguntas urgentes sobre la naturaleza del virus con la esperanza de detener su propagación. La base de datos no solo les ayuda a consolidar la investigación existente en un solo lugar, sino que también hace que la literatura sea más fácil de extraer para obtener información con algoritmos de procesamiento de lenguaje natural. El OSTP ha lanzado una convocatoria abierta para que los investigadores de IA desarrollen nuevas técnicas para la minería de texto y datos que ayudarán a la comunidad médica a analizar la masa de información más rápidamente.