大数据时代的“人、信息和技术”

09.04.2015  11:21

——加拿大档案工作见闻

周晓瑛 王玮

 

 

亲爱的赛迪:他们的爱,他们的生活”展览海报

 

不少加拿大档案机构选择以合作外包方式对档案进行数字化转换。图为数字扫描现场

 

加拿大图书档案馆库房楼采用“屋中屋”设计,图为楼内一角

2014年底,笔者在加拿大参加主题为“大数据与档案管理方式变革”的档案业务培训。在多伦多大学信息学院院长赛默斯·罗斯教授的精心安排下,学员们实地走访了当地的各类档案、图书机构,共有39位相关机构的负责人、教授和学者为学员们进行授课。通过现场聆听档案专家们的案例教学,我们充分了解该国档案工作的前沿理论与最新成果,更深刻地思考在大数据时代“人、信息和技术”三者之间的关系。

一、加拿大档案工作总体印象

(一)分散、独立、图档合一——特殊的档案管理体系

加拿大是联邦制国家,实行三级政府制度,即联邦政府、省(地区)政府、市政府,三者之间无隶属关系。相应的,档案工作也采取三级分散管理——即国家级档案馆、省级档案馆、市级档案馆,三者同样互不隶属,彼此无指导和监督职能。此次培训中我们走访加拿大国家图书档案馆(国家级)、魁北克省图书和档案馆、安大略省档案馆(省级)、渥太华市档案馆(市级)便是此体系中典型的三个层级档案机构。虽然各级档案馆相对独立,但在实际业务开展中却多有共通之处,他们分别收集并保管来自本辖区内的政府部门、重要机构档案和社会捐赠的档案,其馆藏资源富有本地区鲜明的特色,而且普遍具有较高的档案工作水平。

加拿大国家图书档案馆(简称LAC),是世界上仅有的两家“图档合一”的国家级档案机构(另一家为新加坡图书档案馆)。根据《加拿大图书档案馆法》,加拿大图书馆和加拿大档案馆于2004年正式合并,成立加拿大国家图书档案馆。此次培训期间,恰逢该机构成立十周年。据相关机构负责人介绍,自国家图书档案馆成立以来,图书与档案领域的工作文化、技术相互融合,优势互补,取得了显著而良好的成效。

(二)多源、纷繁、海量——丰富的档案馆藏资源

加拿大各级档案部门的馆藏来源广泛,既有政府的文件,也有社会团体和私人来源的记录资料;载体多样,既有文字记录,也有地图、照片、视频、录音、建筑图纸、艺术品、奖牌、奖杯、邮票等。其中,加拿大国家图书档案馆的馆藏内容无论是种类或数量都堪称该国之最。其馆藏中包括7万小时的电影、纪录片;超过250万张的建筑图纸和地图;318万兆以上的电子文件;数以百万计的书籍;超过2130万张的照片;国家及省一级的文字记录和出版物;超过27万小时的视频和音频文件;34.3万张绘画作品收藏,包括水彩、素描、油画、漫画等;一定数量的邮票、奖牌、海报、徽章、期刊、手稿、论文等。

安大略省档案馆为该国最大的省级档案馆,馆藏包括2900万张照片,8.5万多幅安大略省地图,24万幅建筑图纸,3万小时的音、视频文件。最核心的馆藏资源为长达100公里的文本文件,堆叠高度相当于180个多伦多电视塔。

渥太华市档案馆作为市级档案馆的代表,其馆藏数量也不容小觑。据该馆负责人介绍:馆藏官方或个人文件累计长度20公里,照片300万张,10万幅地图,数字化档案数量达1500多万件。

(三)空间设计、物理防护、数字调控——可靠的档案保存环境

加拿大档案机构一般以档案盒来保存档案,每盒容纳几件到几十件数量不等。此外,他们按重要程度及不同载体的特殊保管需求来区分,将纸质档案和音频、视频、照片、图画、地图等档案分别保存于专门的库房中。

以国家图书档案馆为例,档案馆大楼的设计灵感来自于草原地区的农场及仓库设计,采用“屋中屋”结构,建筑外部建有玻璃壳,内部建造水泥库房,可以更大程度地避免户外温湿度变化对于档案贮存环境的影响。库房所有电气设备管道都安置在外墙表面(便于检修)。一般文书档案库房按温度18℃、湿度40%来调控,另有专门缩微库房(18℃,湿度25%)、书画库房(18℃,湿度50%)和底片低温库房(零下18℃,湿度30%)。库房内部地面、墙面涂有蜂胶,起到防尘、保湿作用,屋顶铺设防火管线(水源外置,一旦有火情,启动系统,进行区域灭火)。室内用水的特殊冷凝方式来过滤空气,每小时过滤3次。密集架一般按档案装具尺寸设计,档案纸箱上标有条码,每个架子上也有条码以确定位置,条码中每一位数字分别代表类、箱、库房、列、层等。

安大略省档案馆作为加拿大第二大档案馆,同样参考“屋中屋”结构建造库房。库房外设有缓冲间,库房内部较好地实现防光、防尘、防潮和防止室温随天气大幅变化的要求。库房中还有专门的排水措施,地平有斜度 ,墙角有水沟。库房内的空气每20秒采样一次,如果内部温度超过安全标准,就会自动报警,并采取局部细水雾灭火措施。此外,根据档案载体不同,分别配置了不同温湿度标准的库房,而且密集架和专用设备也有所不同。

(四)大势所趋、长期保存、电子凭证——成熟的电子档案中心

加拿大自1974年开始接收电子档案,在电子档案安全保存方面有着丰富的经验。据加拿大图书档案馆负责人介绍,该机构自2017年以后将只接受政府部门的电子档案。

作为一种普遍趋势,加拿大各级档案馆都推广以电子形式收集和保存档案。保存类型包括电子公文、电子邮件、政府网页和一些研究数据等等。访加期间,我们了解到该国档案机构通过各种措施确保电子档案长期、安全保存的多种方法:如建立开放档案信息系统;建立可信赖的数字化存储库存储电子档案;研发和运用多种技术工具使管理工作更高效。除技术保障外,加拿大也通过《个人信息保护和电子文件法》等有关法律明确电子档案的凭证价值。根据这些法律,已按规范要求数字化的一般档案原件可以不必保存、直接销毁。这些举措也促进了电子档案的长期保存和更普遍利用。

(五 )跨领域、跨地区、跨国界——“1+1>2”的合作理念

合作已成为加拿大档案部门在大数据时代的一种工作机制,针对有关项目寻求合作伙伴,大家通过协作解决共同面临的问题,并将最佳实践推广应用。如:多伦多大学档案馆、康考迪亚大学档案馆、渥太华大学档案馆在数字化档案过程中,由于人力所限,往往选择与加拿大人网站(Canadian.org,一个公益性质网站)、互联网档案馆(Internet Archive,一家提供数字化外包服务的美国公司)等机构进行合作,通过支付一定费用(一般每页扫描单价6美分),完成大批量的档案数字化工作。此外,多伦多大学图书馆、约克大学图书馆、皇后大学图书馆、渥太华大学图书馆在电子信息安全存储方面还有一个“数字图书馆研究云端项目”,将彼此作为数据存储的分中心,并互为网络在线备份中心,确保有价值的电子信息安全存储。

加拿大国家图书档案馆在抢救一些1980年代保存的电子档案时由于技术和载体过时,无法单独承担项目,就与有关的专业技术公司合作,由他们提供技术支持,共同完成有关电子档案的抢救工作。此外加拿大图书档案馆也经常与美国、新加坡等国的档案馆开展国际间的合作,以便借鉴国际档案管理专业人士的经验。

二、“大数据”语境下的共同话题

话题一:何为数字化,怎样数字化?

大数据时代,加拿大档案部门同样面临着海量的数字化任务。如麦吉尔大学信息学院帕克教授所言:“数字化不仅仅是扫描,也不仅仅是技术问题,更是一个管理问题。”一般而言,技术层面的数字化分为两种,一是将非数字化的档案转为数字格式,其形式包括扫描、输入、转录,另一种则是原本就是数字形式的档案再次数字化,包括转换格式、更新版本、改变存储环境等。

和技术操作相比,管理层面的数字化显得更为重要。据魁北克省图书档案馆介绍,如对馆藏所有档案进行数字化,至少需要数百年,而目前已数字化档案仅占其全部馆藏的2%。渥太华市档案馆也有着类似的难题,该馆目前数字化比例为10%。一方面是似乎难以穷尽的数字化任务,另一方面是有限的人力、财力,对于“哪些应该数字化”,或者“哪些首先进行数字化”,档案工作人员往往权衡再三、精挑细选。对此,他们普遍采取“优先数字化”策略,并制定三年以上的长期规划。“优先数字化”的档案包括:一是珍贵档案和特色馆藏;二是用户需求大、利用频次较高的档案(如家谱档案、婚姻档案、地契档案等);三是处于高危介质状态的材料(如纸张脆弱老化的地图、手稿、照片或格式将被淘汰的录像带、录音带等)。

话题二:云储存是否可取?如何保障其安全?

以网络云储存方式存储档案信息,在加拿大档案机构中已多有尝试。多伦多大学图书馆负责门户网站的技术团队介绍了该馆利用云存储技术进行电子文档及图书数据保存的做法。作为一种快速、高效的存储方式,云存储可以较好地备份成指数级增长的档案数据,并可以实现多个档案资源管理单位的实时数据共享,相比档案部门自身架构服务器进行存储,在费用上来得更为低廉。鉴于云存储具有更少的安全漏洞和更高的安全环节,它所能提供的安全保障水平要比用户自己的数据中心更高。

话题三:政府网站信息如何保存?

加拿大各级政府与公众之间的信息交互,有一半以上都是网上进行的。政府网站日益成为政府与公民、企业交流的主要窗口。因此,加拿大国家图书档案馆认为,采集和保存作为电子政务重要渠道的政府网站信息是其责无旁贷的工作职责。保存政府网站信息不仅是国家图书档案馆的工作内容,也引起包括大学图书馆在内的研究机构的广泛关注。据多伦多大学图书馆负责政府出版物的图书管理员塞姆·李(Sam-chin Li)介绍,自1990年代中期开始,加拿大政府对外开始提供电子政务信息,直至2014年4月,联邦政府停止印刷出版物,只提供电子政务信息。为了将这些发布在政府网站上的电子政务信息及时、有效地保存下来,同时保证其真实有效性,多伦多大学图书馆致力于政府网站内容的收集及保存,利用“爬网”、“网站时光倒流机”等技术进行页面抓取,保存的数据格式包括网站的静态、动态页面和图片、Word文件、PDF文件等。通过此项工作,用户可以搜索和打开某一政府网站某一特定时间点的网页板块,找到不同历史阶段的政府公开信息。

话题四:给电子邮件一个理想归宿?

访加期间,我们从康考迪亚大学档案馆获知,该校正致力于开发电子邮件归档与利用系统。之所以开发此项目,是由于该大学校长、各院系主任、教授、档案馆之间的教学及行政事务,越来越多地以电子邮件方式联系和传送,这些邮件也成为大学文书档案中的重要组成部分。为了将其安全合理地归档存储,大学档案馆创建邮件归档系统,提供快捷、准确的检索服务。该系统的设计研发过程中充分考虑了行文格式、附件关联形式、归档鉴定、存储和读取等多种因素,特别对如何维护归档电子邮件的真实性给予高度重视。

话题五:谷歌地图来袭,档案部门所存地图有无用武之地?

加拿大各级档案部门都存有丰富的地图档案,此外它们可以获取各级政府部门拥有的地图空间信息数据。为了充分利用这些地图信息资源,多伦多大学图书馆地图收藏室进行了前瞻性探索。他们在将地图数字化的同时,还将其应用于GIS和谷歌地图系统。一方面将地图档案数据库中的老地图与最新版谷歌地图进行叠加、比对,将历史地图数据定位到现代地图上,以此研究并反映出城市地理风貌的变迁。另一方面,他们还在新版数字地图中输入档案所记录的人口、面积、政区、交通、商业、建筑构造等数据,从不同的专业分类层面,展现出更为具体、细化的城市综合历史发展过程。该收藏室还就此开发了一个WEB APP程序,该程序可以搜索人名或地名,也可以叠加航拍图片进行观看。

三、从公众视角看档案的社会影响力

(一)捐赠、减税、版权——重视私人档案收集

加拿大各级档案机构重视向私人征集档案,征集内容包括书信、照片、日记、音频、视频材料等。如康考迪亚大学就长期向教师、学生收集他们的研究作品及个人材料。这些档案大部分都是通过捐赠的方式获得,捐赠者可得到一定税务减免。而多伦多大学档案馆仅去年就征集到价值30万美元的个人和机构捐赠档案。

私人向档案馆捐赠档案的过程中,档案馆一般先审查其档案的历史价值、真实性、载体形式和内容的完整性。一旦确定,档案馆和个人将签订捐赠协议,协议中对档案所有权、版权、档案的使用条款、税收减免政策都会予以明确。此外,不少档案部门也会在网站上开设“最近的捐赠者”专栏,宣传捐赠者及其捐赠行为。

(二) 发布、共享、保护——提供便捷利用服务

档案资源的开发利用是加拿大档案工作的重点。在开放档案及提供利用过程中,各级档案馆重视网络公共平台建设,通过门户网站、社交媒体,定期向社会公布开放档案目录,发布最新进馆档案。利用者登陆门户网站利用站内搜索工具,就可以自由查阅各类档案。其他未能以电子形式在网络上公布的档案,民众也可以到档案馆实体查阅窗口,利用缩微胶片和复制件。走进档案馆的人群中,有历史研究人员、家谱研究人员、学生、律师、记者、研究员、电影制作人员、政府官员。有的是进行学术研究,有的是进行社会调查,有的是进行传记写作,有的是接受档案专业培训,有的是为了找到自己的家谱。

在对外开放利用过程中,档案馆以维护国家安全及个人隐私为重要前提,注重处理好开放与保密的关系。以魁北克省档案馆为例,对于那些非公开的政府档案或私人档案,前者一般保密期为25年,后者一般保密期为100年。一旦保密时限到期,档案人员无需鉴定,便可对档案进行著录,输入数据库,并直接对外开放。

(三) 全网络、全搜索、全球化—— 实施“开放数据”策略

对加拿大档案部门而言,档案资源的获取,不只是局限于档案实体查阅窗口,也不只局限于档案门户网站,而是希望能在更大的网络平台上被更多的人所获取。因此,他们致力于将不受限制使用的开放档案与来源、背景和技术状况等描述信息链接,并将其作为“开放数据”在互联网上发布,人们可以通过谷歌等常用的搜索引擎检索到,使其被整个加拿大乃至全世界的用户从网上免费自由获取,从而使档案的价值得以更大程度地实现。从用户地理分布情况来看,加拿大幅员辽阔,而且大部分人口集中在南部地区,通过网络开放利用可以让各地民众无需亲自前往档案保存地,即可便捷地利用到丰富的档案信息资源。

(四)有主角、讲故事、重情感——向民众普及档案文化

加拿大档案部门始终强调个人的故事,是档案宏大故事中的一部分。因此他们在馆藏开发、展览设计、对外讲座宣传上,始终牢牢把握普通民众对于档案中最有兴趣的那几部分内容,并以此开展活动。为纪念一战爆发100周年,安大略省档案馆利用馆藏书信及照片档案,举办了“亲爱的赛迪:他们的爱,他们的生活”展览。该展以四个普通人为主人公:加拿大远征军士兵哈利和恋人赛迪,飞行员约翰、军医布鲁斯,讲述他们在战争中各自不同的曲折命运(哈利在参战两年后阵亡,赛迪将两人书信保存下来。在她过世后,后人将这些书信、照片捐赠安省档案馆,便有了此次展览的内容源起)。展览以书信、照片串联起一个真挚感人的战争故事,深深打动观众,也引起人们对战争的反思。

(五)发布、众帮、互动——利用新媒体推动档案工作

依靠社交媒体(如Twitter、Facebook)加强与公众的互动交流,进而促进档案工作的发展,这在加拿大已有多年实践经验。其举措包括:圣诞节等节日期间,发布节庆活动的历史老照片;在视频网站(如Youtube)上传老影片或是原创的档案主题卡通片;披露馆藏老照片,请公众帮助辨识照片中的人物;发布部分档案的图片,请民众提供“众帮”,共同进行档案著录;对馆藏档案资源的数字化优先次序,请公众一起投票决定等。但对于新媒体应用,加拿大档案部门也是慎思而行,往往先期会制定详尽的社交媒体策略,对“为何发布、如何发布、谁来发布、发布内容、版权及隐私考虑、法律政策保障”等进行具体设定。