当前位置：文档库 › 科技论文中学术信息的提取方法综述

科技论文中学术信息的提取方法综述

2017年第10期（总第161期）

胡志刚1,2，田文灿1,2，孙太安1,2，侯海燕1,2

（1.大连理工大学科学学与科技管理研究所，大连 116024；2.大连理工大学WISE 实验室，大连 116024）

* 本研究得到国家自然科学基金项目“开放获取背景下的全文引文分析方法与应用研究”（编号：71503031）资助。

摘要：为更好地利用和挖掘学术论文文本，识别并提取学术论文中的学术信息已成为一种非常迫切的现实需求，在文本挖掘、信息检索、主题监测、信息计量学等领域都有广阔的应用前景。学术信息可以分为题录信息、章节信息、引文信息、引用信息和其他信息。本文综述了在PDF 和HTML/XML 两种不同格式的学术论文全文中，提取各类学术信息的主要方法，并指出这些方法主要面向的格式文本以及可用来提取的信息种类。最后，本文列出了提取学术信息的常用工具。

关键词：学术信息；论文全文本；信息提取；机器学习中图分类号：G203DOI ：10.3772/j.issn.1673-2286.2017.10.007

1 引言

20世纪90年代以来，随着学术论文电子化的出现和兴起，信息技术和情报学领域的学者基于学术论文的全文本开展大量的研究工作，在信息检索[1-2]、数字图书馆[3]、主题监测和追踪[4]、自动生成摘要[5]、全文引文分析[6–9]等领域都有广泛应用。而随着开放获取运动的兴起，学术论文全文本数据的批量获取变得越来越易得[10]，为此类研究提供了更为便利的数据基础和更加广阔的应用前景。

学术论文全文本数据是文本挖掘和文献计量学研究的重要基础，包含多种学术信息，可以满足不同研究目的和功能的需要。除题录中包含的论文题目、作者、机构、期刊、期卷号等信息外，还包括章节结构、引文信息、引用信息、图表和致谢等。

近年来，面向论文全文本的学术信息提取，借助文本挖掘、自然语言处理、信息可视化、潜在语义分析、主题模型、机器学习等诸多技术手段，取得了丰富的研究成果。尤其是对元数据和引文数据的提取和解析，目前已经开发了多种高准确性和使用率的信息提取工具。

为梳理这一领域的研究进展，本文从学术论文全文的数据存储格式和学术信息的分类出发，综述PDF 和

HTML/XML 格式中全文各类学术信息的提取方法，包括题录信息、章节信息、引文信息和引用信息。最后，本文还介绍了一些常用的学术信息提取工具或工具包。

2 学术论文文本格式的演变

随着电子计算机和互联网技术的发展，纸质学术期刊的出版模式在过去三十年日渐式微，学术期刊和学术论文的出版逐渐进入数字化时代。在学术文本数字化进程中，由Adobe 公司开发的PDF 文件格式凭借其优良的设计，在与DjVu 、Envoy 、Common Ground Digital Paper 、XPS 及PostScript 格式的竞争中脱颖而出，成为学术出版中最受欢迎的文档格式[11]。世界知名的科技期刊出版商大多提供了PDF 全文下载平台，如国外Elsevier 的ScienceDirect 、Springer 的SpringerLink 以及John & Wiley 的OnlineLibrary 等；在国内的万方、维普等中文期刊全文数据库中，PDF 文档也是重要的全文下载格式。

但是，PDF 格式文本是一种固定版面的文本格式，不易标记学术论文中的元数据和结构信息，而HTML/XML 语言正好弥补了PDF 格式的这一缺陷。相比PDF 格式，HTML/XML 在结构化信息存储方面更加方便，可通过丰富的内部链接和外部链接，清晰地展示论文