网事绵延:社会记忆视角下的中国互联网历史
上QQ阅读APP看书,第一时间看更新

三 网络档案(史料)的收集、保存与利用

历史研究离不开史料。由于作为互联网历史研究之史料的网络档案的收集、保存、检索与利用有其特殊性,是个新问题,而且面临不少挑战,因此本书辟此节讨论网络档案的保存、检索、利用与研究等问题。[76]

(一)收集与保存网络档案

互联网历史研究的“史料”是网络档案,包括网页、网站、平台、App的档案、个体或群体的网络使用痕迹与数据等。随着数字人文/数字史学的发展,史料收集、保存、检索与研究成为新问题。例如,Digital Journalism在2018年组织了专题“Journalism history and digital archives”,讨论运用数字档案开展新闻史研究。在该专题中,Birkner等人指出,研究者需要获取新的技能和素养以利用数字档案研究新闻史。[77]Matthew等人利用保存的网页研究数字新闻的发展,讨论了设计和保存长时段的数字新闻语料的可能及面临的问题。[78]Broussard 和Boss探究了如何保存和检索数字新闻文本。[79]另有文章跳脱出方法本身,讨论数字新闻保存所指向的政治命题,例如作为社会抗争[80]以及底层“反历史”的手段,[81]提醒我们关注数字档案保存的社会意义。

由于互联网既是互联网历史的研究对象,又是研究方法和研究工具,因而网络档案的收集、保存、检索与研究有其独特性。第一,网络档案以电子形态存在于网络空间之中,体量巨大,内容庞杂,收集与保存是一大难题。第二,网络档案以0和1的数字形态存在,并不会真正消逝。但是,从公共可见性上讲,由于技术进步以及硬件保存等原因,研究者获取与研究早期的网络档案比较困难。[82]第三,如何求证网络档案的真伪,如何建立完整的资料链条与证据链条,是不小的挑战。这意味着,如何收集、保存、检索与研究网络档案,是互联网历史研究需要解决的方法论问题。

网络档案收集与保存的工作早在20世纪90年代中后期就以保存文化遗产的名义启动,早期主要针对网站开展。目前,全球最大最全的网络档案保存机构是1996年成立的非营利性国际组织“互联网档案”(internet archive)。它在推动网站档案保存国际化方面做了不少卓有成效的工作,不少关于互联网历史的研究,均基于“互联网档案”(internet archive)保存的史料开展。[83]目前,网络档案保存的主体和组织者包括:政府主导建立全国性的机构或实施保存项目,图书馆、博物馆以及艺术类组织承担着保存任务,商业组织、研究者、个人等开展的保存工作,一些个体或组织致力于恢复与保存消逝的网站,部分网站开发的网站保存工具等。

关于网络档案收集与保存的方法,对于早期或已消逝的网站,有论者提出可从媒介考古学角度发掘实物,从而在物理上延续网站。[84]本·戴维(Ben-David)和赫德曼(Huurdeman)引进“以搜寻作为研究”的方法(“search as research”method)保存网站。[85]互联网尚处于建设与发展的过程之中,从“当下的现场”切入保存历史档案,是防止网络档案消逝的重要手段。杨国斌在学术对谈中提出,可以分门别类地收集与保存网络档案。例如,按照主题来建立档案(比如环保主题),以组织机构来建立档案(比如英国公司的网站历史),以事件为线索,围绕某个事件来建立档案。[86]还有研究者反思了网络档案的收集与保存工作,涉及保存的网站与原始(正常运行的)网站的差异,[87]伦理与隐私问题等议题。[88]

虽然网络档案收集与保存的实践如火如荼地开展,但仍面临不少挑战。其一,网络档案的数量与规模极为庞大,保存网络档案面临存储与保护方面的难题。其二,布鲁格认为,网站因超链接(hyperlinks)而成为分层的“多媒介”(dense“strata”),区别于报纸等单个媒介。[89]这导致保存的网站与正常运行的网站有所区别,难以还原运行中的状态。其三,消逝的网站的档案材料可能已经消失,成为“缺页”。应对这些挑战,网站档案保存机构与学界进行了诸多探索,但仍未能很好地解决问题。

此外,对于海量的网站与网页信息,网站档案的收集与保存具有选择性,国家或组织的选择常常与话题、事件或民族国家范围内的域名有关。而个人保存网站,则受到个人信息管理、记录特定的事件、发现某些内容难以通过公开的渠道获取、有意识地保存容易消逝的网站等因素与动机的影响。[90]这引发人们追问,到底能够保存多少网络档案?保存的网络档案的质量如何?[91]研究发现,即使是对于“互联网档案”(the internet archive)这一全球最大最全的网络档案保存机构来说,以英国的旅游网站TripAdvisor为例,其保存的子集仅有24%的网页,而且构成子集的网页是有偏差的,那些突出的、出名的和评价高的网页更容易被选中,被保存的网页并不是一个随机的样本。[92]

(二)获取、利用与研究网络档案

史料获取方面,网络档案有不同层级的“可见性”,有些是开放获取,有些有着严格的开放限制,还有一些不能被公开获取。后两者给研究者获取网络档案制造了障碍。史料检索与运用方面,因为没有统一的保存方法或格式,因此网络档案不存在统一的检索表(或检索式),部分网络档案甚至没有可供检索的电子格式,造成了检索的困难。有些网站看上去跟原始网站一样,但是超链接的文本如何嵌入并可以被检索,仍是一个难题。如何检索和分析那些看起来不像原始网站的档案,尚存在一定的困难。对于研究者来说,如何根据研究需要收集、检索与保存网络档案,是现实的困难。当前,鼓励研究机构、学者与拥有网络档案的组织或个体开展合作研究,被视为缓解问题的方法之一。[93]

当前,虽然大数据等技术可以为分析大规模的网络档案提供支持,但具体到情境和研究问题,如何运用网络档案,在何种意义上使用网络档案,仍是需要在实践中解决的问题。互联网历史是“正在发生的历史”,网络档案收集与保存如何跳脱出“近距离”和现时性的羁绊,以“远距离”的视角去收集和保存史料,是需要持续思考的问题。近来,研究者开始关注社交网络和社交媒体的历史,[94]那么如何保存与分析社交媒体档案或App档案,正在成为新问题。