联合编目数据库中重复数据的分析  
     
 
 
 
浙江图书馆 吴晓红
 
 

   计算机技术与网络通信技术的发展,极大地促进了图书馆联合编目工作的发展。联合编目彻底地改变了图书馆原始的、封闭式的手工编目方式,避免了书目数据资源的重复建设,提高了编目数据质量。通过不同区域图书馆之间的联合运作及网络信息传输,可以轻松地实现书目数据资源的共建共享。目前,全国公共图书馆系统共有3家网上联合编目中心,即国家图书馆联合编目中心(以下简称OLCC)、深圳地方版文献联合编目协作网(以下简称CRLNet)和上海图书馆联合编目中心(以下简称“上图中心”),这3家编目中心为确保书目数据的质量,都采取了一系列措施。但作为联合编目中心的成员馆,在下载数据时,都曾遇到过这样的问题:用ISBN号在联合编目中心数据库检索时,有时会检出两条甚至多条数据,个别情况是因为一号多书,但多数情况是一种书出现二条或多条重复数据。可以说,重复数据是影响联合目录数据质量的一个重要因素。重复数据不仅造成数据的快速膨胀,还给成员馆下载数据造成不必要的筛选麻烦。在此,本文对上述3家网上联合编目中心数据库的重复数据进行分析,总结重复数据的类型,并提出质量控制的对策。

一、联合目录数据库重复数据类型分析
1.题名出现少字、漏字、错字
例如:ISBN:7-80706-151-0,在“上图中心”数据库中有两条数据:
200 1 @a决策与分析工具箱@f管新潮,唐卫峻编著
200 1 @a决策与分析工具@f管新潮,唐卫峻编著
2.题名中的符号和空格处理不一致
例如:ISBN:7-5019-5192-6,在CRLNet、OLCC数据库中各有两条数据:
200 1 @a现代英汉——汉英心理学词汇@f张厚粲,孙晔,石绍华主编
200 1 @a现代英汉-汉英心理学词汇@f张厚粲,孙晔,石绍华主编
3.题名选取不一致
例如:ISBN:7-5017-5216-8,在OLCC数据库中有两条数据:
200 1 @a国际贸易理论·政策·措施@f张曙霄,李秀敏编著
200 1 @a国际贸易@e理论·政策·措施@f张曙霄,李秀敏编著
4.副题名与卷册号处理不一致
例如:ISBN:7-80681-916-9,在CRLNet数据库中有两条数据:
200 1 @a新时期中国教育发展研究@e1983-2005
200 1 @a新时期中国教育发展研究@h1983-2005
5.版本信息处理不一致
例如:ISBN:7-115-13879-6,在CRLNet数据库中有两条数据:
200 1 @a亲密关系@f(美)布雷姆(Sharon S.Brehm)等著@g郭辉, 肖彬译
200 1 @a亲密关系@e第3版@f(美)莎伦·布雷姆等著@g郭辉,肖斌译。
6.有关图书内容的说明信息处理方法不一致
例如:ISBN:7-80675-453-9,在CRLNet出现两条数据:
200 1 @资治通鉴@f(宋)司马光著
200 1 @资治通鉴@e最新图文普及版@f(宋)司马光著
7.并列题名录入错误、大小写处理不一致
例如ISBN:7-5019-5526-3,在CRLNet出现两条数据:
200 1 @a选择性课堂@e满足学生的需要@dThe classroom of choice@egiving students what they need and getting what you want@f(美)Jonathan C.Erwin著@g薛莉译@zeng
200 1 @a选择性课堂@e满足学生的需要@dThe classroom of choice@eGiving students what they need and getting what you want@f(美)Jonathan C. Erwin著@g薛莉译@zeng

二、联合目录书目数据库质量控制对策
   为避免重复数据的产生,提高联合目录书目数据的质量,真正达到书目数据资源共建、共享的目标,需要联合编目中心和各成员馆共同努力。
(一)联合编目中心
   1.加强书目数据库的规范化管理
(1)设立一个统一全国编目工作的领导机构,一方面负责文献信息编目标准与规范的制定、修订、推广与实施工作,另一方面负责统筹规范、组织、协调和管理全国联合编目工作,对联合编目工作中出现的分歧做出最终的解释。这对统一我国文献著录、处理书目数据、建立检索体系、开展国内书目信息共享将起到积极的作用。
(2)制定出统一的机读目录著录细则。CNMARC格式只是交换用通讯格式,没有补充具体的数据录入细则,在著录工作中,有些问题是CNMARC格式所不能解决的。应通过著录细则尽量统一各种字母、数字、标点、空格、专有名词大小写等输人规范,提高读者检索文献的检全率。
   2.利用网络的快捷方便,进行网上编目指导
由于出版社众多,出版物的内容和形式变化很快,著录规则虽然有很多实例详细说明各种形式出版物的著录方式,并有不定期的修订说明补充,但规则是滞后性的,赶不上出版物的发展速度,在实际编目工作中总有歧义。因此,各编目中心有必要在网上开辟一个园地,专门供参加联机编目的成员馆随时随地反映编目中遇到的问题,并引发各种讨论,最后由“管理员”对这些问题及时处理并对已经出现的错误进行修正,从而使联合目录数据库的书目数据更加标准和规范。
   3.加强书目数据库的维护
书目数据库的日常维护是提高书目数据质量的重要保障。因此,作为联合编目中心,应建立一整套书目数据库的维护机制,把书目数据库的维护纳人日常工作,将错误控制在最小的范围内。书目数据库的维护既包括书目数据的修改、删除等,也包括在必要时对以往的一些不规范数据的回溯。对于一些存在冲突或有明显错误的数据,应及时予以统一或修改,以保证后续查重、著录、标引的一致性,确保书目数据的准确、唯一。
(二)成员馆
   1.严格查重
查重是联合编目的关键环节,也是书目数据质量控制的一个主要手段。通过分析发现,以上列举的大部分重复数据,完全可以通过严格的查重方法避免。因此,编目员每编一种图书前一定要利用ISBN号、题名、著者等检索点对书目数据进行查重,避免重复数据的产生,保证多卷书、丛书的著录统一、标引一致,以及同种图书的不同版本集中在一起。同时,在查重时如发现已编数据有差错,应及时和联合编目中心的质量控制人员联系,由他们进行修改或协调,从而完善数据库的质量。
   2.提高编目员的素质
联合编目中心的书目数据是依靠各成员馆的编目员直接提交的,高素质的编目员是提供高质量数据的根本保障。在当今出版物极其丰富,从内容到形式都非常庞杂的情况下,对编目员提出了更高的要求:一要树立良好的职业道德和工作态度,强化质量第一的意识,避免题名中的错字、漏字、并列题名漏著等现象的发生;二要深入理解《中文文献编目规则》、《中国图书馆分类法》、《汉语主题词表》以及《中国机读目录格式》(CNMARC)等各种标准、规范,并正确运用这些标准、规范来编制书目数据。尽量避免由于对格式、标准、规范理解的不同、掌握不准而导致的人为错误。如根据著录规则,译著图书的版本信息应在305字段说明,不能著录在题名与责任者项的@e子字段和版本项;三要积极参与图书馆同行的业务交流和学术探讨,以扩大知识结构,提高标引编目水平。
   3.加强数据审校工作制度
高质量的审校是减少编目误差、控制书目质量的关键环节。对每一条上传数据都要进行严格的审查、校对,建立健全监督、检查、奖惩机制,努力提高编目员的工作积极性,以确保高质量的数据上传到联合编目中心数据库。

 
 
 
   
 
联系我们 | 网站地图 | 版权说明 | 在线帮助
点播本站所有视频文件皆要求IE版本5.5以上,并需安装media player7.0或以上版本
浙江科普网版权所有 浙江省科技传播中心制作
地址:杭州市环城西路33号(省行政区四号楼)