首页> >文章内容
馆员在学习 返回

信息组织的分析与研究

-缩小  放大+  2016-06-03

0        引言

 

随着计算机网络技术日新月异的发展,信息组织的方式产生了革命性的变化。在信息网络环境下,传统的文献信息工作必须认识到形势的变化,以积极的态度应对其对传统信息组织方式的冲击,努力与时俱进,满足时代对信息组织的新需求。

信息组织是采用各种方法和手段使信息有序化的过程。它通过揭示信息间内在的逻辑关系,对信息进行加工、整理、提炼,使之系统化、浓缩化,从而达到便利信息传递和交流的目的。传统的信息组织多采用手工编制的目录、索引、文摘、综述等形式,局限于文献信息的组织方式。即使采用计算机技术后,所处理的信息仍主要是二次文献信息,也需要事先进行人工著录、标引。而在网络环境下,信息资源多以数据库、信息库的形式存在,电子信息占主导地位,信息组织的对象逐渐多样化,范围也随之扩大,深入到知识单元、信息单元,而不再停留在对文献特征的描述。传统的信息组织的方式已不能满足各种信息的需要。

 

1  信息组织的分析与研究

 

    分面分类方法在对传统信息组织的优化上在曾起到了很大的作用,在网络环境下利用分面分类的方法,也可对网络信息组织的优化起很大作用。它包括以下几个方面:

 1.1 复分表、仿分在网络分类体系中的使用

    分类搜索引擎在编制自己的分类表时,可以借鉴传统文献分类法中的复分表、仿分技术。但是网络环境下的复分仿分和传统文献分类法不同,尤其在资源类型复分表几乎完全不同于传统文献分类法中总论复分表所列出的文献形式。

    1)通用复分表的使用

    通用复分表可以作为全表各级类目组配复分的依据,也可以用于规范分类体系展开的方式,使整个分类体系更具科学性和逻辑性。网络分类体系的通用复分表包括:主题通用复分表、世界地区复分表、中国地区复分表、时代表(包括国际的和中国的)、资源类型表、人物复分表。主题通用复分表规定了整个类目体系展开的次序,内容可以包括:综合网站、热点问题、政策法规、机构(包括管理机构、事业机构与协会、事业单位、公司企业单位)、人物、理论、事业与管理、改革研究、教育培训。世界地区分类表是必要的,因为信息网络都是全球性的,所以网络中充满大量离散的有关各个地区的信息。复分表的详尽程度要视信息资源的空间分布密集度来定。时代复分表主要根据网站的服务功能和所收集的资源特点来定。收集历史文献的网络站点或历史类专业搜索引擎最好设一个时代复分表,而对综合性的网站和搜索引擎来说也可不用时代复分表。网络环境下所使用的资源类型复分表中的资源类型,除了包括传统文献分类法中的期刊、报纸、杂志等文献形式外,还包括BBS与论坛、会议与活动、个人主页、新闻组、Mailing List/LISTSERV等。

    2)专类复分表的使用

    在编制网络分类体系的时候,在有关类目中编制专类复分表、作为某些类目组配细分的依据。例如,在"工业类"下的各工业部门,可以按照厂家、公司、研究机构、部属院校、杂志、名牌产品统一的次序展开,编制成一个专类复分表。顺序依次为:厂家、公司、研究机构、部属院校、杂志、名牌产品这几项是各科都共有的,可以采用统一的次序。这就是专类复分表的应用,但是它不需要像传统分类法中的专类复分表那样赋予统一的类号,而只需在各类中采用统一的形式,在信息加工的后台中,使信息处理人员更好地理解各类地类目展开方式,更好地使用分类体系来加工整合信息资源。

    3)仿分的使用

    规定部分类目可以仿照已列出的类目进行细分,即类目仿分。例如,在"教育类"下,"中等教育"中的题库就可以仿分"各科考试",因为它们都是按"语文、数学、政治、几何、物理、化学、英语、生物、历史、地理、其它"进行细分的。在网络分类体系中,这种情况很多,不一一列举。

1.2 分面叙词表的应用

    分面叙词表地建立,一般都是局限于某个主题领域的,这是因为每个主题领域的基本分面的划分是不同的,所以对于整个知识领域,建立一个分面叙词表是非常困难的。因此分面叙词表主要用于网上学术资源的组织,或是用于组织建立专业搜索引擎。

    在信息标引的后台工作中,信息标引员利用分面叙词表对网页进行主题标引。一方面有利于分面组配提高描述特定信息资源的能力,一方面用分面组配公式来标引网页,可以实现标引的一致性,进而提高标引质量;信息检索的前台工作中,可以向用户提供其输入的检索词的同义词和相关词,同时可以提供多个主题领域的检索词,以供用户进行自由组配,这样通过组配的方式,可以达到概念的高度专指;采用这种组配的方式,可以使用户拥有最大程度的决定权,即由用户从系统推荐的检索中选择合适的词语,来实现自由的组配,从而避免了用户构造复杂的检索式。

1.3  利用分类主题一体化的成果改造网络信息组织法

     所谓分类主题一体化指将分类检索语言与主题检索语言融为一体,从而形成一种兼具两种语言的标引和查找功能的检索语言。传统分类法系统性较强,有利于族性检索,符合人们的思维、检索习惯,且在揭示数值、声像、空间对象等实体方面有其独特优势。而主题法是用语词描述知识并按一定顺序排列。分类法分类体系复杂,不利于用户查全。而在主题法检索中,夹杂大量不切题和无用信息,导致检准率低,有时甚至相当低,只有两者结合才能较好地解决这一问题。理想的网络信息资源检索语言应当是分类主题一体化语言。例如在搜索引擎进行关键词检索时,可选择在所有站点或仅在此目录下进行检索,而且输出关键词检索结果时,列出相应分类检索路径。目前这种思路在sina等门户网站的搜索引擎中得以实现。例如,如果想查找"红楼梦"的相关信息,我们就在搜索框内键入关键词"红楼梦",并单击旁边的搜索按钮,新浪搜索会先返回目录搜索结果"文学艺术>各类艺术>文学>各类文学>小说>古典小说>四大古典名著>红楼梦",接下来是是关于"红楼梦"的网站的搜索结果。

分类主题一体化对网络信息组织的改造,可以通过以下三个方面实现:①建立一个结构简明的知识分类体系,通过对信息资源的系统分类,实现对知识信息的宏观鸟瞰与控制;这样的知识分类体系必须坚持科学性与实用性的统一,结构要清晰,整个体系是动态的,可以采用超文本系统进行管理。②建立一个智能化的控制词表,实现作者语言与用户检索语言的控制和转换;控制词表应当支持后控,以提高受控词的利用率和用户的交互能力。③建立分类体系与控制词表的系统联系,即将标引语言纳入分类体系,这样既可以用自然语言直接检索,也可以在任何类下进行语词检索,从而较好实现分类与主体的兼容。在搜索引擎生成索引数据库时形成包括分类标识和关键词标识的的索引,同时分别为分类标识和关键词标识生成倒排挡,这样既加快了检索速度,又能同时以分类标识和关键词进行检索,提高检索的查准率。

1.4  建立科学网络信息分类体系

1.4.1 网络信息分类应采用的基本原则

    1)直接性原则。网络信息分类的层次不宜太多,一般来说,6层以下的类目比较符合人们的习惯。

    2)实用性原则。网络信息分类的类目要少而精,要有用,不应该仅仅为了美观因素编制一些无用的类目。

    3) 自然性原则。网络是面向大众的, 采用的类名基本应是自然语言,以满足广大普通用户的信息需求,不应学术性、专业性太强。

    4) 快捷原则。每一类名应有对应的一个快捷键或一个类号,以便熟练的用户快速查找。传统分类法在这方面有相当杰出的成就,编制网络信息分类法时毫无疑问地应该加以研究和借鉴。

 

2  信息组织的发展趋势

    随着互联网的飞速发展,用户信息需求的变化,迫切要求质量高的网络信息组织方法的出现。总体来说,目前网络信息组织的实践和研究工作出现以下发展趋势:

    1)多媒体信息检索发展。现在有一小部分搜索引擎也支持多媒体信息检索,如AltaVista支持MP3/音频、视频等检索服务,lycos提供搜索图像和声音文件的功能。但是,这种多媒体检索往往停留在多媒体的形式检索上,即给出多媒体信息的形式信息如多媒体文件的扩展名和多媒体标题和文字解说,并以此为检索点进行检索。基于文本方式的多媒体信息检索不仅缺乏直观性,而且还有一定的主观性,因此无法充分揭示多媒体信息的内涵,从而影响检索效果。基于内容特征的多媒体信息检索基于图像画面、声音和影像的内容特征。这正是多媒体信息检索的发展方向。

    2) 智能搜索引擎的发展。伴随着计算机智能技术的发展,智能搜索检索(intelligent information retrieval)作为人工智能的一个独立分支得到了迅速发展。许多智能型检索模型主要分为两大类:一类是基于机器学习的大范围信息检索系统,一类是智能化的用户个性化信息检索系统。前者以提高信息检索系统质量为主要目的,以满足用户从关键词检索到知识检索的需要.后者的发展则推动了信息服务个性化。

    3) 搜索引擎的分工发展趋势。比如元搜索引擎、引擎之引擎的出现。元搜索引擎与独立搜索引擎不同,他没有自身的数据库,而是将用户的检索请求转换处理后,提交给预先选定的独立搜索引擎,并将所有查询结果以统一的格式呈现,弥补了独立搜索引擎搜索不全的缺点,提高了检索的全面性,如metacrawler。目前中文元搜索引擎数目很少。而引擎之引擎与元搜索引擎不同,它的目的不是检取最终信息,而是检索可利用的工具信息,相当与传统文献信息组织的目录之目录。它对搜索引擎站点进行分类管理,并对所收录的各家搜索引擎站点的覆盖范围、更新频率、检索效率等进行评价,给用户选择利用合适的搜索引擎提供了有价值的参考。如中文网站: http://www.hailyan.com就提供了这种功能。

 

3  结语

    总之,搜索引擎的发展将对人们信息利用能力,产生不可估量的影响。图书情报学界的同仁更会以自己的成果造福于信息用户。

阅读次数:7907