全文检索的实现技术
发布时间:2019-05-12

全文检索系统的实现技术分为三个方面:关系全文检索系统、层次型全文检索系统,层次型全文检索系统,面向对象的全文检索系统及自动标引技术。

针对全文数据系统的构建,提出全文检索系统的实现技术,主要分为5个步骤。

(1)数据准备

它是指对计划加载到全文数年据库中的数据进行收集、整理、归类等预先处理的过程。加载到全文数据中的数据可以从多种途径获得,常见的数据来源有:电脑打字产生的文件,电子印刷产生的文稿,计算机网上传送的文件,电子出版物,图文处理产生的文件,专门组织人力录入建库。

(2)文本预处理

包括:a.规范格式:当格式多种多样时,应加以整理,使文献的格式规范化;b 批式标引:文本预处理阶段完成的批式标引,不受全文数据库结构的限制,效率较高;c 在批式标引的基础上增加属性标引。

(3)数据加载

数据准备好以后,便可以加载(拷入、输入)到数据库文件中去了。加载数据可有单篇方式或批量方式。单篇方式一次加载一篇,适于平时文献加载的情况。批量方式一次加载多篇,适于集中大量加载的情况。

(4)数据检索

数据库建立之后,便可根据全文检索系统提出的检索功能对数据库进行检索。

(5)数据维护

全文数据库建立之后,需要经常对数据库的内容进行索引、更新、追加和清理。

 

另一种全文检索的实现技术是基于MARC的全文检索系统,该系统是20世纪6年代技术环境下以磁带为主要的存储介质发展起来的一种检索实现技术,鉴于该技术已经过时,有文献指出了它的不足:

(1)不能满足各种用户对各种新服务方式的需要。数据库技术、计算机技术和网络技术的高速发展,以及这些技术在图书馆领域的运用迫切需要改变传统的编目规则与操作方法。

(2)传统的全文检索系统不能适应全文文献种类及形式的变化,特别是各种光电、磁等载体形式已经不能为MARC形式所完全描述。

(3)传统的全文检索技术已经不能跟上全文文献的飞速增长。

基于以上理由,我们提出新一代全文检索系统的实现技术必须满足以下5点要求:

(1)基于通用置标语言SGML(standard generated markup language)和全中文全文检索技术而设计,可与先进的国际标准接轨,通用Internet 网络环境。

(2)文献目录、编目信息和内容可一体化处理,极大地简化中文文献的著录和标引,能明显提高工作效率与建库质量。

(3)全方位支持中文全文检索系统,不仅文献目录而且文献内容也可以实现文本全文检索。

(4)可以对文本、图像、录音、录像、计算机程序及Internet网址资源进行编目和数字化处理,覆盖几乎所有的文献类型。

(5)在依照ISBD标准编目,文献标引深度、支持数字图书馆开发等方面能超过传统MARC的功能和水平。

SGML,即标准通用置标语放言可用于编制电子图书,科技论文,也可用于建设和维护全文数据库,特别适用于建设庞大超文本全文检索系统。广东中心图书馆利用SGML与中文全文检索技术,设计新一代全文文献通用格式,并采用如下原则:

(1)在SGML以及其他国际标准的基础上,设计中文全文文献的数据格式。

(2)遵循《中国文献编目规则》和有关国内、国际文献标准,坚持准确、完整开展文献著录。

(3)依据国家信息处理技术标准设置文献编码信息,采用可变无字段的文本格式,每字段以换行符作为结束符,所有字段不设立字段和字段指示符。

(4)高度的通用性与兼容性,既可作为全文文献的多换格式,也可作为计算机系统的内容格式等。

公司名称:六安市金狮网络技术有限公司
公司地址:安徽省六安市金安区皖西大道红叶大厦802A
联系电话:0564-3214800 手机:13956148092 邮箱:120907442@qq.com QQ:120907442 / 1099497647
手机访问