本发明属于智能识别技术领域,具体涉及一种学术文本词汇功能框架构建方法。
背景技术:
随着科研社区规模的快速扩大和学术文献数量的急剧增长,掌握一个学科的研究进展和知识脉络已经变得越来越困难。为了更好的了解和组织科学知识,人们需要借助学术信息检索工具和科学计量工具的帮助。然而,传统的学术信息检索和知识管理主要考虑的是文档级别的信息,在文档表示上也多采用词袋模型。这样的处理带来了计算上的便利,但同时也失去了对学术文本的深层语义理解。
技术实现要素:
为了解决上述问题,本发明提出了一种学术文本词汇功能框架构建方法。
本发明所采用的技术方案是:一种学术文本词汇功能框架构建方法,其特征在于,包括以下步骤:
步骤1:定义学术文本词汇功能的概念和类别;
步骤2:构建学术文本词汇功能的框架。
词汇功能框架的提出帮助研究者明确了词汇功能的界定范围,不但使得文献标注的效率有所提高,而且为学术文本词汇功能自动识别任务提供了理论框架和基础。基于词汇功能框架的自动识别任务应有更高的效率和更好的效果。
附图说明
图1为本发明实施例的领域无关词汇功能分类体系图;
图2为本发明实施例的学术文本词汇功能框架示意图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
本专利提出的学术文本词汇功能框架构建方法,作为面向词汇功能的学术文本分析的基础。学术文本词汇功能(以下如不做特别声明,简称为词汇功能)是指词汇或者术语在文本中所承担的角色。词汇的功能可能多种多样,本专利关注的是词汇在学术文本中所承担的角色,而不去分析其在语法层面或者其它通用语言理解任务中的所承担的功能定义。
需要说明的是,在语言学理论中,词汇与术语是不同的两个概念,术语由词汇构成。在文专利中,具有独立意义的最小单元往往是术语(phrase)。本专利不严格区分“词汇”和“术语”,以下如果不做特别说明,“词汇”同“术语”将不做区别。
学术文本的词汇功能是对词汇在学术文本中角色的定义,严格来说,术语对语用的定义。在自然语言理解研究中,人们一般从三个角度对语言进行建模,分别是语法、语义和语用。语法是对语言结构的表示,自然语言处理中的句法分析就属于语法分析任务;语义则是对符号和内容关系进行处理,语义角色标注是典型的语义分析任务;语用则考虑到语言和人也即符号与人的关系,分析的是人在使用符号时的所表达的意义。本专利所指的“学术文本的词汇功能”既有语义分析的成分,也有语用分析的成分。某些词汇是对工具、数据、定理、公式的指代,这时候词汇的功能表现的是语义层面的内容,也即符号与内容的对应。另一些词汇功能,如工具、方法等等,并不能与具体的内容相对应,一个词汇表现为什么功能,是由作者和读者基于对文本的理解确定的,这时,词汇功能表现出的是语用的意义。
面对日益增多的科学文献,从词汇功能角度对学术文本进行深度语义分析已经成为必要。基于词汇功能框架的学术文本的词汇功能分析可以帮助人们快速的查找和理解科学文献,挖掘科学概念之间的关联。本专利将对学术文本的词汇功能进行界定,并构建学术文本词汇功能框架,为词汇功能分析做基础。
最早出现的直接相关研究成果是kondo等发表于2009年的研究成果。kondo和nanba等发表于2009的文章和发表于2010年的文章最早提出将学术文本中的词汇根据其功能进行分类,kondo等人的研究将处理对象限定为学术文献的标题,将其中词汇的功能分为“方法(method)”、“问题(goal)”、“其它(other)”三类,例如,文本“本文将支持向量机用于文本分类”中,“支持向量机”构成了方法类词汇,“文本分类”则被标记为“问题”。
gupta和manning在2011年发表在ijnlp会议上的文献中将词汇功能定义为三类:话题(focus)、技术方法(technique)和应用(application)。
在gupta的工作基础上,tsai等将词汇功能分为“方法(technique)”和“应用(application)”两类,前者标明文献使用的方法技术,后者是方法技术所解决的问题。
ding从计量的角度对功能的概念做了探索。在文献中,ding给出了知识实体(知识单元)的三层分类,即宏观实体、中观实体、微观实体,宏观层次包括作者、引文、标题等,中观层次则指关键词,微观实体包括研究使用的方法、数据等。
以上研究成果从自然语言处理、信息计量两个不同角度对词汇功能分类进行了研究,构成了本课题的研究基础。
基于对科研工作存在的共性和领域特性的观察,学术文本的词汇功能也有着通用性词汇即领域无关词汇和领域性词汇即领域相关性词汇两个角度的界定,依据这一观察结果构建学术文本词汇功能框架。首先,领域无关词汇功能包括问题和方法两大类,科研文献可以从文档级和片段级两个层面分析。文档级的问题和方法是针对研究论文整体而言的,它可以在文章的标题中得以显示,片段层面则在句子级别进行分析,分为一般问题、一般方法、其他问题和其他方法。图1为领域无关词汇功能分类体系图。
领域相关词汇在不同领域之间有所不同,对领域相关词汇功能类别的编制需要在对领域进入深入的了解和分析的基础上方能实现。如计算机领域的相关词汇功能可能是数据、工具、评测指标等,数学领域的词汇功能可能是公理、定理、公式、推论等等,再如社会科学领域的相关词汇可能是案例、观察、数据和观点等等,以此类推。结合对领域无关词汇功能的分析,可以得到如图2所示的学术文本词汇功能框架示意图,其构建方法包括以下步骤:
步骤1:对学术文本词汇功能进行定义和分类;
本文所指的学术文本词汇功能是指词汇(或词汇组合,下同)在学术文本中所承担的与一般文本不同的功能,也即这个词汇作为一个符号在学术文本环境下所对应的内容或者用途。
学术文本词汇功能可以分为领域无关词汇功能和领域相关词汇功能两类。
领域无关词汇功能仅包括两大类:问题和方法。问题是科研工作需要解决的工作对象,方法是用于解决问题的途径、手段。为了与“方法”的表述相对应,在本文后文中,也会使用“应用”一词表示“问题”的含义。
科研文献是对科研工作及其成果的固化,科研文献也可以从文档级和片段级两个层面加以分析。文档级对应于科研工作的整体和全局,而科研工作的部分和阶段则反映于科研文献的片段之中。这里所说的片段可能是章节、也可能是段落或者句子。
在文档层面,需要界定的“方法”和“应用”是针对研究论文整体而言的,研究主要使用了什么方法,针对的是何种应用。
在片段层面,片段的是科研工作的某一个过程或者某一个阶段或者某一局部在论文上的体现。研究人员在特定片段中表述使用某种方法,处理某种应用。文档层面和片段层面的方法和应用可能是相同的,也可能完全不同。图1给出了领域无关词汇功能分类体系。
步骤2:构建学术文本词汇功能的框架;
其中构建的框架由领域相关词汇功能和领域无关词汇功能组成,前者具有明确的类目,而后者在不同领域之间有所不同。具体的,领域相关词汇功能是指具有领域适用性的词汇功能。对于不同学科而言,领域相关词汇功能的定义会有所不同。
对于计算机学科而言,存在着工具、数据、评测指标等不同的词汇功能类别
对于数学学科而言,存在着定理、定义、推论、例子等常见词汇功能
对社会学学科而言,存在着理论、观察、案例、数据等等词汇功能;
而领域无关词汇功能可以分为问题和方法两类。在文档层面,存在核心问题和核心方法两个类别,而在片段层面,则存在一般问题、一般方法、其它问题、其它方法四个类别。以下将对各个词汇功能类别分别给予详细说明。
核心问题和核心方法:揭示了文章全文的主要研究课题以及在研究问题的核心解决途径,是在文档级别对文献内容的总结。
一般问题和一般方法:指在文档片段中(本文在句子级别进行分析)词汇所承担的问题或者方法功能。
其他问题和其他方法:指作为背景知识或者作为参照对象的问题和方法。这些问题和方法对作者的科研问题解决没有直接的影响。
步骤3:检验框架构建的效果;
其中利用词汇功能标注对框架构建效果进行检验,其具体实现包括以下子步骤:
步骤a1,构建标注数据集。
本次为该效果的检验构建了一个计算机学科的学术文本词汇功能标注数据集,标注数据来源于美国计算机学会acm数据库,数据是从1950年到2010年间所收录文献的元数据,经过滤后,数据大小共165238篇。
步骤a2,标注流程与规范。
标注其标题和摘要;其中:method用于标注方法、技术与解决问题的途径;application用于标注研究的应用点、或者所解决的问题;mainmethod用于标注在整个研究工作中使用的主要方法、技术或解决问题的途径;mainapplication用于标注整个研究工作主要处理的应用点、解决的问题;othermethod用于标注不直接参与研究工作的,作为背景存在的方法;otherapplication用于标注不直接参与研究工作的,作为背景存在的问题;dataset用于标注研究中采用的数据、数据集;tool用于标注研究中开发的或者应用的工具、系统;measure用于标注研究中采用的指标;
标注的文本在被标注之前经过了术语识别的处理,使用了一个较大的计算机领域词典,利用最大正向匹配方法对领域术语进行查找,并将其标记为一个词汇单元,标注以组块为单位。在组块分析时,对标题使用了opennlpchunker,而对摘要使用stanfordparser的组块分析功能。
步骤a3,标注效果测评。
经过数据标准,本专利获得一个小规模的学术文本词汇功能标注数据集。数据集包括了200片文档,16294个组块,其中具备特定词汇功能的组块2692个。标注数据集各类型统计结果见表1。为了检查标注的效果,本发明随机挑选了20篇文档让两个标注人员标注,然后检验其一致性,发现两者的标注结果重合率有70%。
表1标注数据集各类型统计结果
应当理解的是,本说明书未详细阐述的部分均属于现有技术。
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。
购买青提学术的学校渥太华大学学术诚信陶渊明的学术背景是什么省级学术期刊指的是长寿医学学术会学术不端的相关问题道教是什么学术名称患者全身发抖医学术语学术条件艰苦的诗句反向翻译 学术不端 人民影响较大的学术种类用做学术的心态做项目什么是学术成长指标民国后有哪些学术大师著作全球学术快报推送方式医用药学术语学术文章的写作与发表程千帆学术影响应该如何避免学术不端学术活动会议承办单位如何提升科室学术能力学术争鸣文章的写法盲派命理学术文章如何申报学术类课题百度学术有人认领学术交流英语哔哩学术堂无法访问学术宗师钱钟书提高学术能力研讨会学术大佬成了乡村教师博硕士学术成果认定母婴护理学术红学是学术造假吗泌尿外科杨宇学术爱学术上的论文属于三新学术联盟是什么申请学术学位是什么有哪些学术网络杂志邛崃学术图书策划费用新知学术发现系统注册教师学术专业水平怎么写硕士中心学术主任学术英语排版格式要求思想盛宴学术大餐名字直播带货学术名称学术团队计划书学术机构的如何办理非学术表达有哪些学术报告判断人学术论文九歌学术人的双11肠闭锁学术报告学术造假看德育原则屈光手术学术沙龙学术讲座会议内容最好的专业学术排名是教学类学术讲座线上学术监督主体是谁全球学术报手机注册失败张宏文学术不端学术专家不找保镖学术出版规范科技名词专业学术论文格式50人酒店学术会照片学术文化史包括如何检索学术概念的书学术报告机制创新个人和学术的关系包括成都东京学术塾介绍物流学术科普科研学术会议感想阿德勒的学术观点诗歌评论学术文章张雪峰谈大学学术占星学术英文缩写WISP国际学术会议淄博院校学术造假处理学术会议礼盒名称邛崃学术图书策划费用多少学术性调剂专业2019学术道德与规范学术类雅思考试空军后勤学术杂志学术发展和科研选题世界大学教育学术排名漏气的医学术语科普刊和学术刊学术会议不投稿2021年学术英语竞赛专业学术讲座有哪些陈志丹学术论文谷歌学术浏览插件安全吗博导教授学术讲座费和政花儿学术交流劳立峰 电话 学术同门学术聚谈会西医冷医学术语学术目的语言课程教材教师怎样介绍自己的学术学术论文不同作者与英语有关的学术专业许昌商业学术会议医学术语的涌国内肿瘤学学术期刊署名引发的学术事件学术免费的的网站西南联大时期学术成就学术问题软件有哪些医学术语hug针夸老师学术能力很强学术会议会议流程读秀学术搜索免费护理专业硕士学术硕士八字堪舆学术张伯礼学术地位学术产出指的是什么目前在学术界学术学位与学业学位学术评论 期刊有哪些学术大师与学者有什么校长学术沙龙活动总结审计学术论文学术技术骨干 待遇提高学术站位的建议遗址具有较高的学术学术期刊颁布新法律动画学术主张是什么墨尔本大学深圳学术中心江西省美术学术双耳响医学术语英语学术书评格式范文2021年学术道德文件教培学术活动法治舆情学术宣讲2022ntr在学术是什么大学数学学术网站中国学术伦理非学术表达有哪些学术规范与引文规范开拓学术之区宇学术不诚信辩论总结语学术研究常用理论德国语言学术水平最好的风水学术论文相关的学术海报学术英语经管电子课本风清气正的学术XXX体的学术名称高校学术传播的特点华中学术36集陈珂百度学术魔法玄幻小说学术文章引进学术型人才周濂学术水平如何中国社会学术学术论文不同尺度怎么读学术论文学术不端案例的感悟榆林学术翻译机构思光学术新著 pdf意大利学术考核标准是人体寄生虫学术有趣的会计学术分享什么专业只有学术硕士糖尿病肾病学术会学术达人宣言怎么写学术英语的文章翻译学术高地名称大全同上是数学术语学术正式立项时间在哪查阳痿的医学术语学术体系的核心价值大学cp医学术语本科阶段写学术论文伍连德学术文集教师评职称学术水平银行相关的学术问题学术硕士容易毕业吗逻辑学术语概念名词倪中福 学术造假华盛顿大学学术联盟课题学术方法的创新教育方面的学术作品国际学术论文评分学术论文共享网吕梁学院学术动态评估社恐的学术语护士专业学术期刊学术5除以5=多少美国学术圈怪物英语学术写作语句风格师范学术背景介范文搞学术也不纯粹如何贯彻学术伦理要求学术热点分析网站排名韦岗百度学术在家怎么上谷歌学术中学老师学术背景介绍学术文章专业评估排名跟熊有关的学术