建造现代汉语-古汉语词典的新方法

建造现代汉语-古汉语词典的新方法

古汉语词典的编写体例是给定一个古汉语词，可以查出它的现代汉语解释，我们不妨把这类词典叫做古汉语-现代汉语词典。那么逆向查阅的词典，就应当叫做现代汉语-古汉语词典。这种词典对我们学习古汉语的作用也许不如汉英词典对英语学习者的帮助大，因为现代语文教育基本不要求学生用文言文写作。但任何语言——包括文言文——的学习都需要启用尽可能多的思考方式；例如，给定古汉语词说出现代汉语释义是一方面，但在学习中加入给定现代汉语释义说出古汉语词的训练，可提高学习效率，正如用卡片帮助记生词、正反两面反复训练更能增强记忆一样。

百度翻译在目标语言中含文言文一项，这是我目前所知的唯一一部现代汉语-古汉语词典。例如源语言输入“好吧”，目标语言文言文输出“善乎”，输入“仍然”，输出“仍”，输入“警卫”，输出“卫”，输入“小心谨慎”，输出“慎”。这些结果当然不错，但输出限于一个词大大降低了可用性。“仍然”在古汉语中更可能是“尚”、“犹”、“犹若”，“警卫”也可对应“衙内”（当然这限于一定历史时期），“小心谨慎”还可是“恂恂”。事实上，任何词典都应当是一对多的，包括现代汉语-古汉语词典。我希望能在这方面有所贡献，但不是从零开始编纂一部词典，而只是将现有的某部古汉语词典做一个反向查询的用户接口。这个工作所需的技术早已成熟，简单概括可以有两种方法，以下详述。

一、直接使用搜索网站的结果

各大搜索引擎都支持site操作符，它可将结果限定在某个网站或域名之内。如在Google（或百度）输入
site:zdic.net “岂不是”
其中zdic.net是汉典的网站。给出的链接是所有汉典网站上含有“岂不是”一词的网页。遗憾的是，我希望能在众多搜索结果中给出我想要的解释“无乃”的网页
http://www.zdic.net/c/0/98/173179.htm
但在结果中翻了几页，“无乃”也没有出现。又如搜索
site:zdic.net “仍然”
搜索结果给出的链接是所有汉典网上含有“仍然”一词的网页，第一个链接指向
http://www.zdic.net/c/d/14a/325865.htm
该网页解释“仍然”这个现代汉语词。至少在搜索结果的第一页中没有看到有指向汉典解释“尚”、“犹”或“犹若”的链接。

有趣的是，在搜索输入中加入搜索词的英文可大大提高“命中率”，例如搜索
site:zdic.net “仍然” still
在第一结果页中就出现了指向“尚”、“犹”和“犹若”的汉典网页。这个方法很好，但要求使用者预先提供汉语词的基本英文词或词组，而当该词并未被汉典采用时，这个方法则失效。例如，Google翻译“岂不是”为“Would not it be”。如果你搜索
site:zdic.net “岂不是” “Would not it be”
将不能得到任何结果，去掉“Would not it be”的引号可得到两个完全无关的链接。百度译“岂不是”为“Is it not”，使用这个英语词组也不能得到结果。

二、建造现代汉语-古汉语词典的新方法

鉴于上述困难，我提出一个建造现代汉语-古汉语词典的新方法。这里说“建造”而非“编纂”，因为这项工作并非编纂一本词典，而只是提供一个逆向查询的接口。具体实施包括以下步骤。

1. 获得或建立一个古汉语词典的数据库。首先，古汉语词典必须是电子版的。如果它是一个或多个简单的文本文件，需要将其拆分为几千或几万词条，每条分为古汉语和现代汉语释义两部分，输入所有词条到数据库。
2. 对现代汉语释义部分建立索引（indexing），正如各大搜索引擎对英特网的内容或各个桌面搜索引擎对个人电脑的内容建立索引一样。
3. 提供最终用户界面，输入搜索词将对第2步建立的索引进行搜索，结果输出为整个“古汉语词-现代汉语释义”的网页。用户在网页内做页内搜索找到所需内容。

由此可见，我提出的方案跟百度白话-文言文翻译有很大差别。我的方案是，将（例如）汉典即zdic.net上的古汉语词的现代汉语解释作为可搜索的文本，搜索的结果是现代汉语释义包含该词的古汉语词的网页。由于输入可以是大段文字中的任何关键词，使用起来要灵活得多，而且能给出语境（上下文）。

这个方案的障碍是非技术性的：我们不能将汉典的内容全部或大部分下载作为自己的数据库，因为那是违反版权的。但汉典（或任何提供古汉语词典的网站）则能很容易地采用以上方法，在自己的数据库上建立这个逆向查询并提供该服务。

2014年9月

To my CNNotes Page