“打虎”的故事让仓颉走进了AI的前沿,这源于他的传说。很久以前,人们用肢体语言交流,效率低且容易产生歧义。为了解决这个问题,人们开始用“结绳记事”。然而,这种方法逐渐让信息变得杂乱无章,很难理清头绪。仓颉看到了这个问题,决定动手解决它。仓颉,相传姓侯冈,名颉,也被称为“仓颉先师”。《万姓统谱》记载,仓颉拥有重瞳四目的异相。他认为观鸟迹虫文可以启发造字灵感。某天,仓颉的村子里有一头黄牛被老虎咬死了。他愤怒地画了一幅老虎和井的图来告诉母亲自己去打虎。结果母亲误以为儿子坠井身亡,当场气绝身亡。这段故事被后人称为“仓颉打虎”。 仓颉曾给黄帝看管牛羊鸡鸭。后来黄帝交给了他一个重要任务:造字工程。可是仓颉却想不起当初打结的创意。这个失误给黄帝氏族造成了损失,仓颉也因此失去了工作。痛苦过后,他决定让每个符号都有固定的含义。这样就诞生了“仓颉造字”。 仓颉日夜思考着天上星宿、地上山川、鸟兽虫鱼还有草木器具,并给它们赋予意义。他还出版了一部包含28个字的《仓颉书》。然而随着时间推移,他在书写时出现了乌龙情况:原本代表“牛”的符号变得像鱼;代表“鱼”的符号又像头牛。 尽管如此,在之后的几千年里,汉字依然发展迅速。从甲骨文到金文、小篆、隶书再到楷行草字体不断演变。今天我们用手机和输入法时也遇到了许多困难:机器人听不懂方言、谐音还有表情包等问题。 搜狗数据科学研究院给ACL顶刊投稿了一篇论文《字根嵌入》,这是全球首次把“字根”作为中文NLP最小单位进行研究。 实验结果显示机器准确率显著提升。 这个技术将在搜狗搜索、输入法还有地图中得到应用。 这次从“打虎图”到“字根嵌入”的转变让仓颉若在天有灵会感叹: 造字只是起点,让机器读懂字才是终极使命。