2019.03.06 丨微软研究院AI头条

微软研究院和清华大学联合发布 “开放学术图谱（OAG）2.0版本”

2019.03.06 丨微软研究院AI头条

编者按：开放学术组织(Open Academic Society)是由微软、清华、艾伦人工智能研究所、亚利桑那大学、华盛顿大学等20个全球机构联合成立的学术组织，旨在推广学术数据的开放共享、加强学术交流与合作。其中，连接了来自微软和清华大学两个亿级学术图谱的开放学术图谱（Open Academic Graph，OAG）是该组织的一个重要项目。近日，微软研究院和清华大学联合发布了OAG 2.0版本，新版本增加了作者和出版地点相关的数据，并实现了两个数据集中实体的自动匹配链接。

开放学术图谱（Open Academic Graph，OAG）是一个大型的学术知识图谱，连接了两个亿级学术图谱：微软学术图谱（Microsoft Academic Graph，MAG）和清华大学的AMiner学术图谱，致力于提供完全开放、免费的公开学术图谱。具体来说，OAG包含了来自MAG的超过1.66亿篇学术论文和来自AMiner的近1.55亿篇论文的元数据信息。经过集成这些数据信息，OAG生成了两个学术图谱之间近6500万对链接（匹配）关系。

2017年8月，微软研究院和清华大学联合发布了OAG 1.0版本。在过去一年多的时间里，OAG 1.0版本吸引了约4万次下载。

OAG 1.0概览

OAG 2.0

在OAG 1.0版本的基础上，近日，微软研究院和清华大学双方联合发布了OAG 2.0版本。

OAG 2.0包含了约7亿实体数据和20亿实体之间的链接关系，其中包括AMiner的2.8亿实体数据（作者、论文、会议）和微软学术图谱MAG的4亿多实体。新版本不仅增加了如作者、出版地点、论文等更多类型的实体数据以及相应的匹配关系，同时，还实现了两个数据集中实体的自动匹配链接。

OAG 2.0定义的问题如下图所示。OAG目前有约7亿实体数量，不同实体相互联系构成了一个大规模异构网络。下图的中间部分表示了作者名字的歧义性。而图的下面则展示了不同类型实体的异构性，因此匹配不同类型的实体需要考虑其不同的特点。

大规模实体匹配的示例

截止2019年1月，OAG 2.0的统计数据如下面三个表格所示。因为微软学术图谱MAG和AMiner两个学术图谱都在不断演变，所以OAG 2.0采用了MAG 2018年11月的快照和AMiner 2018年7月或2019年1月的快照。

OAG出版地点数据统计

OAG论文数据统计

OAG作者数据统计

注：对于作者匹配，本次匹配只考虑了论文数不少于5的作者。将论文数量较少的作者排除后，AMiner中有6,855,193位作者，MAG中有13,173,936位作者。

构建亿级开放学术图谱

构建亿级开放学术图谱是一项极具挑战的研究工作。由于学术数据在不同图谱中呈现分布异构的特点，同名异义和异名同义问题严重，因此，实现数据的精准匹配是一个重要挑战。

研究过程中，主要的难点体现在以下三个方面：

实体异构。OAG中不同类型的实体具有异构性，它们都有各自不同的特征。例如，出版地点的主要属性是名称，而论文有不同类型的属性，如题目，作者列表，年份等。此外，不同数据源的相同属性也有异构性。例如论文作者可能存在不同的格式，如Quoc Le 和Le, Quoc；发表地点有全称或缩写等多种形式。

实体歧义。同一名称可以表示多个实体，这也给图谱连接带来了很大困难。比如常见姓名通常是作者匹配的难点。对于论文来说，相同的题目也可能代表不同的论文，如在KDD 2016中收集了两篇题为“robust influence maximization”的不同论文。

大规模匹配。要实现亿级数据集成，如何进行高效计算是另一个重要挑战。以已经公布的论文数据为例，AMiner和MAG各自有约1.7亿和2亿篇论文，因此需要设计一个高效的匹配框架。

为此，微软和清华大学的学者们尝试结合哈希算法、不同神经网络模型和注意力机制等方法，来连接两个大规模学术图谱上不同类型的实体（出版地点，论文和作者）。

随后，学者们评估了少部分匹配关系（大约1,000个出版地点/论文/作者匹配对），其准确率表现优异。

实体匹配准确率

OAG：学术数据的开放共享

开放学术图谱OAG是开放学术组织(Open Academic Society)的一个重要项目。开放学术组织是微软、清华、艾伦人工智能研究所、亚利桑那大学、华盛顿大学、加州洛杉矶大学、澳洲国立大学等20个全球机构一起联合成立的学术组织，旨在推广学术数据的开放共享、加强学术交流与合作。

OAG可以用于多种研究课题，如：网络数据挖掘（论文引用关系网络，作者合作关系网络等），文献内容挖掘，同名作者消歧和学术图谱对齐等等。

以集成全球不同学术知识图谱、公开共享学术图谱数据、提供相关学术搜索与挖掘服务为目标，微软和清华大学的学者们希望OAG可以实现：

集成丰富的学术知识数据。目前OAG的核心数据来自微软学术图谱MAG和AMiner学术图谱，下一步OAG将集成更多其他学术图谱数据，包括扩充不同类型实体（如作者、论文等）的语义数据。通过数据集成和数据挖掘算法，OAG将链接更多实体，及更精准和丰富的“画像”数据，包括论文的元数据、概念网络、研究领域、全文等和作者的基本信息（如：职位、单位、联系信息、国家、性别等）、研究兴趣以及论文列表等。

数据共享。通过共享不同的学术知识图谱，以及它们的链接关系，造福学术界对知识图谱、学者合作关系、学术主题挖掘以及大规模学术图谱连接等领域的研究。同时，也欢迎更多学术社区的贡献来进一步增强OAG。

服务共享。设计更加智能的学术图谱连接系统，并提供相关的服务（如API），以方便更多人使用服务以及加入开放学术社区。

了解更多关于开放学术图谱OAG的信息。

参考文献

[1] An Overview of Microsoft Academic Service (MAS) and Applications.

https://www.microsoft.com/en-us/research/publication/an-overview-of-microsoft-academic-service-mas-and-applications-2/

[2] ArnetMiner: Extraction and Mining of Academic Social Networks.

http://keg.cs.tsinghua.edu.cn/jietang/publications/KDD08-Tang-et-al-ArnetMiner.pdf

文章来源：微软研究院AI头条微信公众号，欢迎大家关注

文章原址：微软研究院和清华大学联合发布 “开放学术图谱（OAG）2.0版本”

行业洞见与案例研究

行业洞见与案例研究

行业洞见与案例研究

行业洞见与案例研究

2019.03.06 丨微软研究院AI头条

微软研究院和清华大学联合发布 “开放学术图谱（OAG）2.0版本”

2019.03.06 丨微软研究院AI头条

媒体联系

推荐课程

推荐课程

互联网大数据与机器学习算法设计与实践

行业洞见与案例研究

行业洞见与案例研究

行业洞见与案例研究

行业洞见与案例研究

2019.03.06 丨 微软研究院AI头条

微软研究院和清华大学联合发布 “开放学术图谱（OAG）2.0版本”

2019.03.06 丨 微软研究院AI头条

媒体联系

推荐课程

推荐课程

互联网大数据与机器学习算法设计与实践

2019.03.06 丨微软研究院AI头条

2019.03.06 丨微软研究院AI头条