网络文章原作者及网址考证中的几个问题

众所周知,书或文章作者不得对出版社或杂志社一稿多投[1]。上世纪末开始的网络时代造就了朝气蓬勃的年轻人,但也助长了对版权的忽视,因为在电脑上拷贝、粘贴只需要几秒钟。许多文章被转贴,各大语种的网站都无例外,但以简体中文尤甚。(转贴不标明原作者及出处的现象基本仅限于简体中文。[2])因此,负责任的文章作者在需要引用网络文章时,有必要对所读文章追踪溯源(以下简称文章溯源),考证出原作者、网址及首发时间,而不应当任意引用当前正阅读的地址,更不可在不核实的情况下将当前发帖用户认定为文章作者。

1. 基本方法

对网络文章溯源的基本方法是将文章题目和文中某一句话分别作网络关键词搜索,关键词须绑定,即置双引号于两端。两大搜索引擎值得推荐,Google和百度。一般前者即可,但在搜中文网页时百度偶尔可起辅助作用。随后对所搜结果一一检查文章是否为同一篇,检查文章发表时间,两两相较,永远丢弃更晚的,直到最后筛选出最早发表的文章。

2. 问题

(1)并非所有网络文章都附有发表时间。除非发帖者明确声明“转贴”或明显属转贴,对不含时间的文章可暂时搁置,尤其是自称原创者。幸运的是,转贴者绝大多数无意剽窃[3],极少有故意称原创而实非原创者。另外,博客类网站软件都显示发帖时间,除非发帖者自己管理网站,否则不易将发帖时间消掉或更改。

(2)网络首发不是原创。用以上文章溯源方法找到的首发作者仍然可能不是原作者,因为他可能只是将原发于纸质材料上的文章输入电脑、发于网上。因此必须借助其他相关信息加以判断,如多数转贴声称来自某作者或杂志,而文章溯源找到的首发就是在该杂志的网站上,则基本可判断原创即在此。

(3)首发文章消失。网站因技术或政治原因可能将网站内容进行清理、删除,除非有明确证据证明原发出自某网址,文章溯源的最后结论应当作类似如下的声明: “目前可见文章首次在网上发表于...”。假如文章发于静态网址(一般以.html、.htm、.txt、.doc、.pdf等结尾),可在 web.archive.org检查是否有存档,或用site标记检查搜索网站是否缓存(如怀疑abcd.com曾发过该文章,可用关键词 site:abcd.com "文章关键词" 进行搜索)。

文章可能假“消失”。文章转贴者有时只是将题目更改而不声明[4],或对文中部分文字作小修改,而你使用的关键词碰巧是其中一段。因此需要多用几句话做搜索。

(4)简繁体问题。百度搜索将繁体先转化成简体,而Google则决定于是否做绑定关键词搜索,如果是,则遵从输入词的字体(繁体则繁体,简体则简体),否则给出两种结果。以“YST 率性而言,言無不盡”为例,Google绑定(带引号)搜索,当前给出9个结果,首次出现于网上何处地址一目了然,但百度给出无数链接,查出首发处颇费功夫。这句话出自台湾网友YST的《美國的金融危機》一文,笔者颇感兴趣,曾摘译部分,并注明原作者和首发地址。但因为大陆网站大量转贴且多不注明出处,对该文溯源需要用到一个简繁体的策略:一般说来,如果大量转贴中部分为繁体,可用繁体版的词句在Google(不能是百度)作绑定搜索,从而大大减少结果数量。

(5)有时搜索结果非常多,其中一些结果明显不是你关心的这篇文章,则需要除题目以外增加文中一两句话作关键词,或者,如果用Google或其他搜索网站(但不包括百度!),也可添加不含某关键词的搜索,即用减号。(注意,百度不支持不含某关键词的搜索。)另外,还可加入“原创”一词作关键词,因为原作者有可能明确表明了,这至少可帮助尽快找到作者,虽然首发时间和地址可能仍需要进一步考证。如果有必要,可与声明“原创”的作者联系。最后,也可能用简繁体搜索解决搜索结果过多的办法,参见(4)。

(6)时区差异。有时一篇好文章在短短几小时里被许多人转贴,即便是简体中文,也可能被中国大陆以外的读者复制。如果该读者使用位于GMT格林威治时区和 GMT+8:00北京时区之间的网站,他的发帖时间有可能看起来早于中国大陆真正首发作者的时间。有些网站提供发帖者IP地址,可以用whois服务查出他的地理位置[5]。但假如没有IP,则可根据网站主页提供的信息(“联系我们”、“Contact Us”等)进行判断,或将网站的域名转成IP再做whois搜索。

(7)外文翻译。在中国史研究中这种现象不常见,而且一般只涉及文章局部,但这却是以上所述简单的文章溯源方法不能解决的问题。一篇文章貌似作者自己的观点或调研、考证的结果,但实际可能是对他国文字的翻译、摘译而不注明出处。将文中部分词句直接做搜索很难得到需要的结果,考证出原文需要对原文可能对应的词汇做合理的猜测。例如,笔者曾对《罗斯福曾下令杀掉蒋介石》一文质疑,其中选出关键词“蓝鲸行动”做英文搜索(因为有关罗斯福的文献大多为英文),“蓝鲸”一词的英文基本只可能是"blue whale",用该词组和"chiang kai-shek"作绑定搜索得不到更多的信息,这有力地增加了质疑的份量。

网络文章给研究者和广大网友带来丰富的信息和知识,但由于许多网友版权意识淡薄,转贴而不注明出处,给文章溯源带来不必要的困难,有时也在无意中帮助扩散不良信息。文章溯源不但是每一个负责任的作者应该做的事,我们也可将它用于追踪消息源头,以廓清事实、消除谣言、培养健康的怀疑精神。

2010年4月

[1]笔者曾在1991年为北京某杂志社发现一案例,作者经多次解释,确系与首先投稿的杂志社长时间不答复有关,因此对作者没有进行处理。这里涉及的版权是专有或专属的,另一种尤其在网络时代的非专有版权可由作者决定发表于多种出版物。

[2]有人在标有他拥有版权的网页上对笔者的一篇文章转贴而不注明出处,我与他联系,希望他要么注明出处并删除他拥有版权的一句话,要么删除转贴,他选择了后者。

[3]笔者亲历的仅此一例: http://www.booksforest.com/thread-9354-1-1.html

[4]如 http://www.booksforest.com/forum.php?mod=redirect&goto=findpost&ptid=76419&pid=1018888&fromuid=254377

[5]如果能找到一台UNIX或Linux机器,只须输入命令whois <需要查的IP>即可。否则可上www.apnic.net对亚太地区IP进行查询,上www.arin.net查北美IP,上www.ripe.net查欧洲IP,上www.lacnic.net查拉美IP,上www.afrinic.net查非洲IP。个别国家还进一步提供更详细的IP搜索,如韩国有www.krnic.net。




To my CNNotes Page