首页论文检测教程基于万方数据的智能检索知识发现应用研究-wanfangdata

基于万方数据的智能检索知识发现应用研究-wanfangdata

时间:2014-03-24 编辑整理:早检测网 来源:早检测网

分析万方数据2003- 2007年间期刊论文数据, 在原有关键词基础上构建主题词表, 通过实体识别, 对作者、机构、文档进行关联分析, 发现作者、机构、文档间的潜在联系, 为进一步语义检索研究做基础性探讨。

The papermakes an assoc iation analys is on authors, affiliations and documents based on the data of the papers published in Chinese periodicals from Wanfang Data( 2003- 2007). This helps to indicate the latent relationships among authors, affiliations and documents. An effectivemethod of ent ity recognition is also proposed to mi prove the accuracy of association analysis in this application. And the application is supposed to be the basis of further semantic retrieva.

1 引 言

在现代化信息技术的冲击下, 传统信息服务已经不能满足用户对高质量知识信息的需求, 而蓬勃发展的搜索引擎由于其自身资源的冗余、缺少足够组织等情况限制, 只能满足用户对信息的一般需求, 并不能深入探求所提

供信息是否能满足用户所需, 所提供信息也是描述性的, 缺乏针对性、效用性、创新性、关联性、主动性和持续性。为此, 学界提出了知识服务这个概念, 通过知识服务进行用户需要及用户背景分析, 从各种显性和隐性知识资源中, 将所需信息进行提炼、重组、加工、集成并以更为直观的方式呈现给用户, 国内图书情报界也将知识服务列入未来的发展方向之一 。本文通过对万方数据/中国科技分析评价服务平台0数据库中2003- 2007年间的发文数据相关信息(作者、机构、关键词等)进行数据清洗和规范, 提出在机构实体识别的基础上进行作者识别, 结合关键词进行关联分析,对构成知识服务基础的信息资源进行重新组织。作者及机构实体等知识的识别, 有助于通过作者、机构、文档进行相关知识的组织, 并在此基础上, 揭示作者、机构、文档间潜在关系, 通过这些潜在关系构建语义检索网络。

2 国内外研究现状

自从智能检索概念提出以来, 国外研究学者通过共引、共现等分析方法对文档间潜在关系做了一系列理论以及应用研究: Blair等通过比较关键词共现以及字符串相似度计算考察了检索效率, 他们提出的关键词共现分析随后成为文档知识检索理论的基础[ 4];Chen等通过一个包含20 000条知识概念以及280000条概念间相互关系的叙词表构建了智能检索系统[ 5],并提出算法提取叙词表中相关词汇知识 ; Berry等提出基于文本特征词的文档矩阵空间, 并通过余弦夹角计算其相似度[ 7] , 这种检索方式被称为潜在语义索引( Latent Sem ant ic Index ing, LSI); 潜在语义索引具有可计算性强, 需要人参与少等优点, 因而众多学者纷纷对其进行改进以提高相关文档知识检索效率[ 8- 10] 。以上研究从内容分析角度出发, 利用共引、共现等方法揭示文献中知识概念潜在关系。


另外, 与文献相关的知识, 如作者、机构等也成为揭示文献潜在关系的研究热点。当前通过作者、机构以及相关知识点进行信息网络服务已成为国内外信息服务商的主要服务方式, 如CNK I的知网平台、万方数据知识服务平台等。但是, 笔者也注意到由于作者署名不同以及同名情况的出现对检索推荐会造成一定影响, 这种情况被称为同名歧义( Nam eAmbiguity) , 因而在提供学术知识服务时, 需要对作者实体加以抽取、识别, 并以此为基础进行相关知识发现, 这项研究被称为同名消歧( Nam e D isambiguation)。Scopus在作者识别方面做了许多努力, 现在已经在其检索服务中提供了/ Search for Author0作者检索功能[ 11] 。/开放研究人员和贡献者ID0 ( ORCID)在汤姆森路透社、自然出版集团、爱思唯尔出版社、斯普林格出版社、大英图书馆和韦尔科姆信托基金会等23个国际知名组织的支持下,针对每个科研人员独特设置的、唯一的标识, 有效区分受不同文化下的姓名排序、名字缩写的不一致性或使用不同字母而引起的名字变化, 进而能够对每个科研人员的综合学术成就和贡献加以评价[ 12]。在中文作者实体识别时, 笔者注意到, 这种识别通常与作者署名机构相关。由于机构名存在缩略语、数字以及其他不规范情况, 有必要对相关机构进行实体识别, 在机构实体识别的基础上进一步对作者实体进行识别, 目前此种研究影响力较大的为社会网络分析法[ 13, 14] 。通过社会网络分析法, 可以揭示学者、机构等命名实体间的合作关系, 消除由于署名不同(如作者单位)所造成的歧义。本文在以上研究的基础上, 对万方数据2003 -2007年间期刊论文数据中作者、机构、关键词等信息进行数据清洗。在此基础上, 对作者署名机构进行基于规范的实体识别, 结合作者信息进行作者实体识别,这种识别可以消除由于作者同名歧义、机构名歧义带来的检索困难。在实体识别的基础上, 通过空间向量相似度、合著关系等方法, 将作者、机构、文档等相关知识重新组织, 为进一步智能检索进行了实践性探索。


3 基于文献的相关知识发现处理过程

目前, 信息检索的方式仍是主要通过用户检索式进行词面匹配, 由于用户对于某一概念的理解和表述存在差异, 这种检索方式难以满足检索需要。同时, 由于用户检索式通常以自然语言形式呈现, 这给用户检索相关文档的获取带来了一定难度。对此, 国内外学者纷纷展开研究, 希望通过各种知识发现机制实现智能检索, 对用户检索进行智能扩展, 如基于语义的知识服务 。本文以万方数据2003- 2007年间2 374 307条发文记录为数据来源, 在数据清洗基础上对作者、机构、文档进行相似度计算, 其中借鉴了共现分析、社会网络分析、空间向量模型等方法, 挖掘文档间潜在知识关系, 其主要研究思路如图1所示:

3. 1 信息抽取

科技文献信息检索主要通过作者、关键词、标题、摘要等字段获取, 因而检索效率有待改进, 这主要表现在以下几个方面:

(1)使用作者进行检索时, 往往由于重名或者作者机构变更使得还需通过作者学科等其他信息进行二次检索;

(2)通过关键词进行检索时, 由于用户对关键词的选择, 往往出现漏检、误检;

(3)通过标题及摘要等字段进行检索时, 往往出现检索结果过多的情况, 查准率较低;

(4)作者间相互关系、检索主题扩展、以及文献相关知识联系有待挖掘。为了解决以上问题, 抽取万方数据2003- 2007年间发文数据记录, 并按照作者、机构、论文、基金项目、主题词、学科等进行分维设计, 随后对各表进行规范处理, 同时创建索引及表间映射, 以便进行命名实体识别以及相似度计算。


3. 2 命名实体识别

(1)作者及机构识别

在学术文献海量级增长的情况下, 以作者为中心展示学术文献, 日渐成为面向学科领域实施知识服务的需要。德国特里尔大学的M ichaelL ey通过XML存储元数据的方式开发了DBLP ( Digital B ibliography&Library Project)  , 以作者为中心对计算机领域论文进行了系统的分类(按期刊、会议); 中国人民大学网络与移动数据管理实验室利用面向领域的数据集成技术, 从Web中集成计算机领域的部分权威中文期刊和学术会议论文的信息, 向用户提供以文献作者为中心的检索服务[ 17] 。这种以作者为中心的检索, 主要通过作者名、作者单位等信息进行检索, 由于数据库记录存在的局限性, 即作者信息以及机构信息往往产生一些署名歧义, 从而使通过作者、机构检索, 以及通过作者、机构进行关系分析具有一定困难。

通过对现有数据的观察, 笔者注意到中文机构信息的主要来源是论文文摘中的作者单位名称, 主要包括所属单位的名称、单位所在的省份城市、单位地址、邮编等信息。由于学术论文中作者单位没有统一规范, 同一机构往往出现歧义现象, 例如简写、数字表达、单位名称变更、单位层级关系等。不同类型机构(如教育机构、医疗机构、科研院所、企业单位等) , 其消除歧义的规则也不尽相同。机构实体识别的主要流程如图2所示。

对机构信息进行预处理, 通过通讯信息获取机构所处地区信息, 并通过缩略语匹配对机构名称中的缩略语进行统一规范。随后对机构通过类别中心词匹配进行分类判定(如大学、学校、医院、卫生所、研究所、学院等), 提取一级机构名, 根据不同机构类别对照规范表进行匹配。对于机构规范表, 笔者通过教育部全国普通高校名单、万方数据- 企业信息网、中央企业名录以及人工统计等方式获得。需要说明的是: 对于教育机构, 机构规范表主要依据教育部全国普通高校名单;对于科研院所, 主要依据中国科学院以及其下属院所名单; 对于企业机构, 规范主要依据万方数据- 企业信息网以及中央企业名录获取; 对于医疗机构, 则主要通过人工统计方式获得; 除此以外, 对于以上仍不能识别的机构, 通过提取特征词分类(如学校、医院、企业、公司、卫生所、股份有限等), 将其初步划分到教育机构、医疗机构、科研院所、企业单位等类型后, 再进行人工统计。

在机构识别的基础上, 对作者进行了实体识别, 主要通过作者名以及所属单位进行关联分析。这种分析的目的有:

¹ 识别同一作者多个机构, 这主要是由于作者署名多个机构单位所致;

º 解决不同作者重名, 对于同名作者, 结合社会网络分析中合著网络以及引用网络, 对作者进行了重名消歧。通过作者以及机构识别, 获取了规范处理后的作者实体表及机构实体表, 以便进行关联分析。

(2)主题词表构建

在学术文献中, 由于关键词的自然语言特性, 因而其缺乏规范, 必须对其进行清洗, 消除相同概念词面的差异。这种差异主要由以下两个方面造成:

¹ 由于标点符号造成的关键词差异, 如 C+ + Builder0

º 由于表述造成差异, 如数字图书馆与数字化图书馆。在词面消歧的基础上, 笔者通过ICTCLAS分词组件 对文献标题、关键词以及摘要进行分词, 结合停用词表, 构建主题词表。在构建主题词表时, 对其中的常见词, 如/研究、应用进行过滤, 主要通过考察该类词语在学科领域内的分布情况来确定。其计算方法如下:


其中, Pi j = Ti j /Lj, L j 是类Cj的文档数, T i j是含有词Wi 并属于类Cj的文档数; …Pi = 6jPij / m, m 为总的类别数。N ( w i ) 是包含Wi 的文档数, N 为总文档数。Freqwi是Wi 作为关键词出现的次数。


在式( 1) 中, 第一部分是计算W i的分布均匀情况, W i分布越均匀, 方差越小, 重要性也就越低。在这里, 根据每篇论文的中图法分类号对论文进行分类, 具体来说, 根据论文的分类号, 找出分类号对应的学科,然后以学科作为类目, 比如/管理学、经济学、其他学科等。虽然各个学科的论文数不均匀, 但在计算Pij时已经除以类目的总论文数, 所以可以不用考虑。第二部分是计算Wi 的倒文档频率IDF。目前, 已有学者通过实验证明[ 19] , 平方后的效果最好。第三部分是Wi的频次, 这是因为, 如果很多论文都把这个词当作是关键词, 那么这个词一般来说是有意义的主题词(也有例外, 比如很多论文都把/分析研究0加到关键词字段中, 这其实是不合适的)。


通过式( 1)计算出来的得分, 大体上可以反映一个词的重要程度。删除一部分常见词, 为文档相似计算减小主题词向量空间的记录数, 降低运算量, 同时也可以避免一些错误的判断。通过主题词表构建, 笔者获取了规范处理后的主题词表, 生成文档主题词矩阵,以便进行潜在语义索引。



3. 3 关联分析

在命名实体识别的基础上, 获得了作者实体表、机构实体表、主题词表, 结合文档信息表, 进行关联分析,实现与某一主题相关资源的重组、有序化。这主要通过文档相似度计算、主题相似度计算、作者相关度计算、机构相关度计算实现。其主要流程如图3所示。

(1) 文档及主题词相似度计算

在主题词表构建基础上, 构建文档主题词矩阵, 取评分前N 名的文档记录到数据库中。评分代表了一个词在一篇文档中的重要程度。N 的取值同样非常重要, 如果过小, 那么相似度计算结果会很不理想; 相反如果过大, 记录数太多, 计算相似度生成的中间表会非常大, 并且很费时, 所以这里要根据服务器的能力选择

合适的N。在文档相似度计算时, 将每篇文档看作主题词构成的向量空间, 空间中每个维度的取值即为文档主题词矩阵中的评分。文档间相似度计算, 即为向量间夹角余弦值计算, 两篇文档越相似, 其向量夹角越小, 余弦值越大。其计算公式为:

C os( A, B) = A# B / |A | * |B |

其中, A、B分别为两篇文档主题词向量空间。在实验中笔者发现, 由于记录数太多, 为减少计算量, 对相似度小于0. 1的记录可进行删除。主题词相似度计算同文档相似度计算部分很类似, 不同的是这时需要将主题词看成是其出现的文档组成的向量。通过文档以及主题词相似度计算, 获取文档、主题词相似表, 并以此实现相关智能检索推荐。


(2) 作者及机构相关度计算

在作者实体识别的基础上, 根据文档主题词矩阵,以及文档作者对应关系, 同样可以计算作者主题词矩阵, 进而计算作者间的相关度。但在实验中发现, 这种计算代价过大, 且相似结果值过小。假若有50万主题词, 每个主题词平均与20篇文档对应, 而假设每篇文档平均与三位作者对应, 那么矩阵的记录数将达到90 000万条, 在实际计算中实现较为困难,且由于作者规模比较大, 则相似度反之非常小。因而, 主要通过合著关系,计算作者间相关度¹ , 具体计算参照相关系数, 公式如下:

其中, CoF req(A, B)为作者A与作者B的合作发文数, CoF req(A, doc)与CoFreq( B, doc)分别为作者A、B的所有发文数。机构相关度计算同作者相关度计算, 这里不再赘述。通过作者及机构相关度计算, 获取作者以及机构间合著关系度, 并以此作为作者及机构智能检索拓展。

4 应用及效果评价

通过对作者及机构实体的识别, 可以构建基于作者及机构的学术信息知识网络, 并据此统计相关作者及机构的发文数、被引数、H 指数、学科分布、期刊分布以及合作关系等。机构实体识别通过预处理、分类、规则匹配、待定机构处理等几个步骤解决了检索过程中由于机构信息模糊引发的检索扩展等问题。作者实体识别通过联合机构、社会网络分析法去重解决了同名歧义、同作者多个机构等问题。在实体识别基础上, 通过文档主题词清洗, 获取相关机构知识、作者知识。这其中使用了空间向量法、社会网络分析法, 并对其中的应用效果进行了比较。

4. 1 机构知识获取

基于规则对万方数据2003- 2007年间中机构实体进行规范识别, 获取机构实体知识。机构实体识别主要通过机构抽取、预处理、分类、匹配等步骤完成, 识别结果情况如表1所示:表1 2003- 2007年间万方数据机构实体识别应用统计

通过机构实体识别, 获取了万方数据2003- 2007年间发文中203 165条机构实体数据, 结合发文情况,发现规范表中机构发文占总量的81.47%, 这说明通过规范表识别机构具有较高的准确度。机构实体识别解决了以下问题:

(1)作者单位名存在简称;

(2)作者机构名不规范, 如存在数字;

(3)单位变更名称;

(4) 单位名存在层级关系导致一级机构名不能识别。以南京大学为例, 通过机构实体识别, 最终获取了万方数据2003- 2007年间以/南京大学0作为发文机构的相关知识, 如表2所示:

通过机构实体识别, 可以更为全面、准确地获取相关研究机构学术信息, 作为相关机构科研评价的坚实基础。

4. 2 作者知识获取

机构实体的有效识别有助于随后的作者实体识别, 结合社会网络分析法, 笔者对同名作者进行了区分, 并对对应多个机构的同一作者进行了合并, 获取了基于机构实体的作者知识, 具体应用效果如图4所示:


结合机构实体进行的作者实体识别, 可以有效区别同名用户, 并对同一作者对应多个单位进行实体唯一识别。这种唯一识别解决了以下问题:

(1)同名歧义, 对同名作者进行了实体区分;

(2)以学者科研经历为中心体现了学者学术研究

发展情况, 如教育背景、研究领域、合作关系等。作者实体识别有助于通过作者实体构建知识网络, 进而以作者为中心展现其学术信息以及相关知识,如学科分布、发文情况、被引情况、H 指数、合作情况等, 具体应用效果如图5所示。

4. 3 其他应用

通过作者实体以及机构实体的识别, 可以围绕作者及机构构建相关知识网络, 并通过主题词表的构建,进一步测算其相关度, 结合本文关联分析所述, 笔者对

具体相关度测算进行了实际效果的比较。对于文档以及主题词相似度, 主要通过空间向量距离进行计算, 挖掘文档及主题词间潜在关系。对于作者以及机构相关度, 主要通过合作关系进行计算, 需要说明的是, 这些计算都以实体识别为基础, 这种基于规则的实体识别准确度较高, 可以很好地解决检索中存在的实体甄别问题, 为学术评价以及其他知识应用打下坚实基础。


5 结 语

本文采集了万方数据2003- 2007年间期刊论文数据, 通过信息抽取、分维获取文献相关信息表, 并对文献相关命名实体知识(作者、机构)进行有效识别,规范了文献主题词表。在此基础上, 通过文档及主题词相似度计算, 作者以及机构相关度计算, 挖掘文献间潜在知识关联, 便于用户智能检索。在实践中, 仍存在一些问题有待改进:

(1)对于机构及作者识别, 对于论文信息作者及机构识别准确度较高, 但引入论文涉及基金申请人及机构、国家科技奖励人员及机构后, 仍需进一步提高识别率。

(2)对于主题词相似度计算, 主要通过向量空间计算完成, 对于主题词间上下位关系等知识, 需进一步通过相关主题词表如5中国图书馆分类法6、HowNet等进一步改进。


谢 靖 江 岚 王东波 苏新宁    (南京大学信息管理系 南京210093)

【关键词】 知识发现 万方数据 命名实体识别 相似度计算 智能推荐

在线咨询
在线留言
系统列表
返回顶部