档案收集工作是档案工作流程的重要环节,也是基础性工作,但同时也是最具难度的环节,如何做好高校档案的收集工作,是高校档案工作人员面临的重大课题。
随着《高等学校档案管理办法》(教育部第27号令)的颁布,高校档案工作面临着新的挑战和机遇,高校档案机构应以此为契机,提高和完善档案收集这一基础工作。为此,笔者结合自身工作体会,针对目前高校档案收集工作中存在的问题,提出通过各种技术手段挖掘馆藏数据信息,将信息反馈给数据来源部门,以提高各归档部门移交积极性的设想,欢迎严肃的批评和探讨。
一、面临的现状
《中华人民共和国档案法》明确规定:“……对国家规定的应当立卷归档的材料,必须按照规定,定期向本单位档案机构或者档案工作人员移交,集中管理,任何个人不得据为己有。”《高校档案管理办法》规定:“高等学校中的个人对其从事教学、科研、管理等职务活动中所形成的各种载体形式的档案材料,应当按照规定及时归档,任何个人不得据为己有。”但是,在实际工作中,各部门的兼职档案员,尤其是一些职能部门的工作人员,档案意识比较薄弱,对档案的收集与归档工作不够重视,对档案的移交不及时不完整,重要资料私自留存在各个部门的文件柜中,造成了高校档案收集难的局面,对馆藏的完整性造成了重大影响,也不利于档案机构开发、档案信息资源为学校教学、科研、管理等工作提供服务。
奈斯比特曾说过:“我们淹没在信息之中,但仍处于知识的饥渴中。”所以如何从海量的信息中提取所需要的知识,一直是档案界思考的重点,这在高校档案工作中也同样存在。从笔者所在高校来看,自九十年代末起,已经开始将计算机技术应用到高校档案管理工作之中,每年都有大量案卷级、文件级条目进入计算机管理系统之中,同时也对90年代以前的馆藏档案的案卷级、文件级目录信息进行了补录,由此在后台数据库中已经积累了海量数据信息。但是,这些数据的利用率却比较低,因为真正能够直接利用的、使用价值高的数据信息并不多,而又缺乏从海量的数据信息中对有价值知识进行的深入挖掘。
二、解决思路
以上两种现象在高校档案工作中较为普遍,二者看似并无关联,但在笔者看来这两个问题应该综合看待。档案收集工作之所以难以顺利开展,重要的原因之一便是各立卷部门从馆藏档案中所能直接利用的信息不够丰富和快捷,在他们看来,档案机构单纯是一个档案实体的保管机构,移交给档案部门不如放在身边利用方便。对此,档案部门应当对各部门收集的档案进行二次开发,重新进行资源整合,实现信息资源增值,并将增值信息反馈给数据来源部门,使其获取的资源价值远远大于将资源存放在本部门内部的价值。这样,一方面能使馆藏数据信息得到充分利用,提高档案馆的服务效益,另一方面也能提高各立卷部门移交档案的积极性,从而缓解档案收集难的状况。
三、解决方案
如何对档案信息资源进行发掘,为各立卷部门提供高质量的反馈信息,应当成为档案工作的重点之一。对此,笔者提出以下几条见解。
(一)档案信息整合
在对档案的利用检索过程中,我们发现不同部门的数据库中在拥有个性数据信息的同时,也存在大量的重复信息。信息的分散和冗余不仅不符合馆藏的科学性要求,还极大地影响了检索的效率。笔者认为对这些信息进行整合不失为解决的好办法。举例来说,学生从入学到毕业期间,招生办公室会移交高考录取相关信息数据库,学工处会移交学生的入学基本信息库表,教务处会移交学生在校期间的成绩记录,组织部会移交学生的入党情况记录,学生所在院系会移交其奖惩记载,毕办会移交毕业去向情况,等等,每一个数据表中,都会有类似学号、姓名、性别、院系、专业等相同的字段,我们可以利用学号这个关键码对所有的这些相关数据表进行一次自然联接,去除相同字段,生成一张新的数据库表存储,在该表中包括那些所移交数据的全部信息,即从学生的入学到毕业的完整信息,这样便会大大提高检索效率,为利用工作提供良好的支持。同时,将整合后的数据信息反馈给相应部门,能在部门之间实现信息资源共享。
(二)建立专题数据库
在档案利用过程中,经常会出现这样的现象:有些信息仅通过文件级目录的检索很难查询,有些要同时查阅不同实体大类中多份文件。针对这类情况,可以根据用户需求建立专题数据库。例如从干部任免档案中查询某人任某职的起、止时间,这往往很难通过在正题名字段中输入姓名而查找出,因为同一份文件往往包含了对多位同志的任免信息,文件正题名类似于《关于XX等同志职务任免的通知》,其中既不包含所有人的姓名,也没有对应的任或免的具体职位信息,这样很难通过计算机进行文件级目录检索来查找到相关人员任免情况。鉴于此,档案部门可以对每年所任免的干部进行统计,建立一张数据表,表中设置年度、姓名、所任(免)职务、任(免)时间、任职文件编号等字段,并将文件内容中涉及到的人员信息逐一录入,形成专题数据库,以此提高此类档案的查询效率。诸如此类的专题数据库可以有很多,需要档案工作者在平时工作中根据利用者的需求进行收集、整理。
(三)数据统计
数据统计是对数据进行初步研究,以便更好地理解它的特殊性质,一般包括汇总统计、可视和联机分析处理(OLAP)。汇总统计(如值集合的均值和标准差)和可视化技术(如直方图和散布图)是广泛用于数据探索的标准方法,OLAP是一种新近开发的包含一系列考察多维数组数据的技术。这三种技术中,汇总统计是档案数据管理中最常见的统计形式,它用单个数或数的小集合捕获可能很大的值集的各种特征。比如,根据每年的招生信息,如考生来源地,考生高考成绩,报考专业等信息,可以根据需要统计出每个地区的录取比例,各分数段的情况,各地区报考专业的分布情况等等,还可以结合几年的信息进行纵向和横向统计。这些统计情况表可以是数据表格也可以制作成图表,反馈给党校办或招生部门,可以对此后的招生计划起到一定的指导作用。
(四)数据挖掘
基于人工智能的数据挖掘技术是一种能够从海量的数据中提取有价值知识和信息的技术,它通过对查询内容进行模式的总结和内在规律的搜索,帮助决策者分析历史数据及当前数据,并从中发现隐藏的关系和模式,进而预测未来可能发生的行为,从而为决策行为提供有利的支持。其功能主要有:1.关联分析。它主要用于发现隐藏在大型数据集中的令人感兴趣的联系。2.聚类。它将数据分成有意义或有用的组(簇),能增强人们对客观现实的认识。3.自动预测趋势和行为。它自动在大型数据中寻找预测性信息,以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。
在档案管理系统中应用数据挖掘技术有着较大意义:1.辅助编研选题。利用档案管理系统中的用户日志对借阅数据进行分析统计,了解到档案利用者的兴趣爱好,研究方向,预测用户需求,从而确定档案编研的选题;2.预测用户需求。通过对近几年某段时期内档案利用数量与档案利用者人数数据进行挖掘后发现,某个时期某种档案利用率相当高,可以较准确地预测用户的利用需求;3.节约数字化成本。通过对某类档案进行数据挖掘,发现某些档案几乎只有几种类型的文件经常利用,针对结果可以在安排档案扫描数字化工作时,要求扫描人员只扫描每一卷中的这几份档案而不是将全卷档案都扫描,这样大大减少了扫描人员的工作量,而且也使单位节省了扫描仪、计算机等设备的开销,降低档案数字化成本。此外,还可以在档案安全性、档案馆藏结构等诸多方面进行数据的挖掘和统计分析,对档案的鉴定、保护等有一定的指导作用。通过数据挖掘技术的运用,可以发掘档案所蕴藏的信息资源,进而为领导决策和各部门的工作提供信息支持。
对于高校档案工作来说,应当以利用工作为重点,为学校的各项决策和建设提供支持,这要求档案机构做好各项基础工作,尤其是档案收集工作。面对高校档案收集难的现状,笔者认为,从利用的角度,以信息反馈促进档案收集值得档案工作者去尝试。
参考文献
1.黄静。关于高校档案收集与归档工作的探讨[J]。黑龙江史志,2009(9)
2.秦慧,陈研希。注意挖掘档案用户的潜在需求[J]。兰台世界,2009(3上半月)
3.王立萍。利用数据挖掘技术做好档案编研选题[J]。北京档案,2008(11)
4.宇然。数据挖掘技术与档案管理[J]。兰台世界,2002(8)
5.(美)Pang—Ning Tan,(美)Michael Steinbach,(美)Vipin Kumar著。范明,范宏建等译。数据挖掘导论(Introduction to Data Mining)[M]。北京人民邮电出版社,2006.
6.仇壮丽,李雪莲。知识挖掘在档案管理中的应用[J]。兰台世界,2005(7)
聚合中文网 阅读好时光 www.juhezwn.com
小提示:漏章、缺章、错字过多试试导航栏右上角的源