科学

计算机信息检索

利用算机有效存储和快速查找能力的技术

中文名:计算机信息检索 外文名:computer information retrieval 适用领域:计算机 所属学科: 信息检索:一次性和二次性信息检索系统
计算机信息检索介绍
计算机信息检索(computerinformationretrieval)利用计算机系统有效存储和快速查找的能力发展起来的一种计算机应用技术。它与信息的构造、分析、组织、存储和传播有关。[1]

信息分析

目的是确定输入系统的信息条目的格式和内容,并为建立索引作准备。一次信息检索系统用于确定逻辑记录的格式和记录关键字,或记录之间的关系;二次信息检索系统用于浓缩原始信息,又称作标引。这相当于编制题录或文摘,即找出标识原始信息的一组关键词(称作主题词或检索词),从而产生一部检索词典。在词典中还可以规定同义词、近义词关系和各词语之间的层次关系。标引工作的一部分可由计算机自动完成。例如,利用题内关键词索引或频率统计法等技术从原始信息中抽取出关键词。

信息存储

目的是建立信息库,以备检索。为了便于查找,需要合理组织信息条目,可以按文件形式组织,也可以按数据库形式组织。信息检索系统常用的文件组织形式有:顺序文件、索引顺序文件、倒排文件和聚类文件,其中用得较多的是倒排文件和聚类文件。

倒排文件对每个信息条目给出一个表示主要属性的唯一的关键词,称主关键词。所有主关键词和相应信息条目在文件中的地址构成一个索引,称为主索引。系统还给出允许用户检索的信息条目中的次要属性,称为次关键词。次关键词不是唯一的。通过在每个次关键词后面列出出现该属性的信息条目的主关键词而构成另一种形式的索引,称为次索引。

从主关键词查主索引可以找到信息条目。从次关键词查次索引可以找到若干主关键词,系统从主索引可以找出若干有关的信息条目。在一次检索提问中要查找的索引部分是很小的,所以倒排文件结构的查找时间较短。

聚类文件是通过分析信息条目之间的相似性来组织的。检索时,系统查找出与提问关键词有相似性的聚集类,聚类文件结构特别适合于文献检索的情况。

系统维护

系统提供一组实用程序来进行装入信息的格式转换、信息文件的初始化和故障后系统的重新运行等一般性服务。二次信息检索系统还提供检索词典维护程序,以便能增加、删除、修改和打印出检索词。

保密性

计算机信息检索系统的保密性是通过对信息条目的存取控制机构来实现的。对于以文件系统为基础的信息检索系统,存取控制一般只能在文件一级,即通过在打开文件时核对口令来控制非授权的用户检索信息。对于以数据库技术为基础的检索系统,存取控制可以在文件、记录,甚至在信息条目中某信息项一级,既可以通过核对口令方式,也可以采取调用用户编写的编码、译码子程序的方式阻止非授权的用户调用保密的信息。

可靠性

计算机信息检索系统的可靠性与计算机系统的可靠性密切相关。它依赖于计算机系统硬件的可靠性、操作系统的故障恢复机构、数据库管理系统的恢复机构和应用软件采取的故障处理措施。任何计算机信息检索系统都不能保证信息不受到破坏,但是它必须具有从破坏中得以恢复的能力。

效能评价

计算机信息检索系统的效能通常根据漏检索、误检率、检全率、检准率和响应时间(对联机检索)等来衡量。关键词本身错误或使用的查找算法不对会引起漏检。关键词的二义性会造成误检。检全率和检准率主要针对二次信息检索系统而言的。检全率指检出的相关信息条目数与信息库中的相关条目数之比。检准率指检出的相关条目数与所有检出的条目数之比。这二者是相互制约的。一般认为一个系统检全率在60%~70%,检准率在40%~50%即能满足需要。响应时间的快慢不仅与软件设计的好坏有关,而且与硬件的性能有关。

应用范围

计算机信息检索最初用于图书、文献检索方面,后已用在军事、工业、医疗、航空、政府机关等各个方面。有的只作信息检索用,有的则是将信息检索技术应用在其他综合的管理信息系统之中,如用于辅助决策的军事情报检索系统;航空公司自动订票系统,医疗情报系统(包括病历管理、预约登记、通知、病名检索、病床管理等);旅馆床位管理系统;检索型的辅助设计系统等。此外,政府部门或企业的档案管理、科研或工程项目管理、基本建设投资管理等都可应用信息检索技术。

相关资讯
内容声明

1、本网站为开放性注册平台,以上所有展示信息均由会员自行提供,内容的真实性、准确性和合法性均由发布会员负责,本网站对此不承担任何法律责任。

2、网站信息如涉嫌违反相关法律规定或侵权,请发邮件至599385753@qq.com删除。

Copyright © 趣爱秀