90后技术宅研发Magi一夜爆红，新一代知识化结构搜索新时代来了？

2019年11月12日09:25:00 发表评论 276 次浏览

Magi 仿佛“一夜爆红”，访问量剧增，导致自 2012 年就不再更新微博，其他社交媒体也久未有动态的创始人季逸超更新了一条微博：

内容大致是不知道为何 Magi 突然蹿红，在没有做任何推广的前提下访问量剧增，导致 Magi 服务器直接崩了......

在置顶微博中，自称自闭很久的创始人还告诉大家，Magi 其实并不是单纯的网页搜索引擎，而是自主阅读文本并持续纠错的 AI。

这个 AI 真的有这么神奇吗？带着疑问，我们上手实测了一把，结果一下子震惊了。

从上图中可以看到，单单是页面简洁的风格就让人很舒爽，重要的是搜索结果不仅有较为精准的描述，属性中的每一个结果还有对应的链接，并带有标签和主要学习来源部分，最关键的一点是，搜索结果以结构化知识的形式呈现。

相比之下，一些目前流行的搜索引擎效果相形见绌。

再比如输入“大枣和红枣”，结果不但会罗列出功效，还会给出“断言”，表示这两个概念是“近义项”“又名”“又称”“也称”的关系，把鼠标放在右侧的学习来源上，还会显示出断言的根据。

反观另一款流行搜索引擎，输入相同的关键字，得出的结果如下图，第一条和第二条都是广告，第三条总算有点用了，第四条的时间显示这还是去年的答案。

偶然间在 magi.com 首页停留了一会，我们发现了一个小秘密，Magi 竟然在不断地学习，上图中，短短几秒钟时间，Magi 就学习到了“德国”“防长”两个词。总之很神奇。

这不禁让人好奇，Magi 究竟是怎样一种搜索引擎呢？为什么搜索效果不同于一般搜索引擎？背后使用了哪些 AI 相关技术？

接下来，通过 Magi 的官网介绍和季逸超的技术解读，我们可以从中大致了解到这个产品的一部分细节。

01 Magi 是什么？能做什么？

据官网介绍，Magi 是由 Peak Labs 从无到有自研的基于机器学习的信息抽取和检索系统，它能将任何领域的自然语言文本中的知识提取成结构化的数据，通过终身学习持续聚合和纠错，进而为人类用户和其他人工智能提供可解析、可检索、可溯源的知识体系。11 月，Peak Labs 发布了公众版 Magi.com。

与搜索引擎不同，Magi 不仅收录互联网上的海量文本，还会去尝试理解并学习这些文本中蕴含的知识和数据。此外，Magi 从零研发了一套互联网搜索引擎，所以 Magi.com 同时提供全网规模的普通搜索结果，学习过程是在无人干预的情况下 7 x 24 小时不间断运行。

02 AI 技术解读

互联网数据浩如烟海，质量参差不齐，如何将这些数据处理成机器能够理解的数据结构时隔巨大的挑战。Magi.com 提供了与互联网数据交互的新方式，而 Magi 系统背后的技术平台则承载着另一半重要的意义：让机器像人一样能理解并充分利用互联网中无穷无尽的知识。

那么，Magi 到底用到了哪些 AI 技术呢？

从零设计研发了整个技术堆栈，包括原创 succinct 索引结构的分布式搜索引擎

使用专门设计的 Attention 网络的神经提取系统

不依赖 Headless 浏览器的流式抓取系统

支持混合处理 170 余种语言的自然语言处理管线

独一无二的训练/预训练数据。

这个系统通过引入传统搜索中的 query-independent 质量因素，使得优质可靠的消息源会更被重视

其基于多级迁移学习的提取模型则完全摒弃了人工规则、角色标注、依存分析等限制泛化能力的环节，并且可在 zero-resource 的前提下直接应用到各种外语文本上并取得令人满意的效果

而随着数据的积累以及来源多样性的扩充，这个系统还能够持续学习与调整，自动消除学习到的噪音和错误结果。

而季逸超本人也在 Magi 推出后在知乎上进行了更加详细而全面的技术解读。

来源：知乎用户季逸超

链接：

https://www.zhihu.com/question/354059866/answer/881655371

工作原理

▲How it works (灵魂手绘凑合看吧...)

几年来 Magi 的产品形态改变了很多（请分开看待 Magi 系统和 Magi.com 这个搜索引擎），技术上的进步主要体现在以下几点：

利用率和通用性：

能够 exhaustively 提取重叠交错的知识，且不利用 HTML 特征。

不预设 predicate / verb，实现真正意义上的 “Open” Information Extraction。具体来说，Magi 不再依赖于预设的规则和领域，“不带着问题” 地去学习和理解互联网上的文本信息，同时尽可能找出全部信息 (exhaustive) 而非挑选唯一最佳 (most promising)。Magi 通过一系列预训练任务淡化了具体实体或领域相关的概念，转而学习 “人们可能会关注内容中的哪些信息？”。为 Magi 设计了专门的特征表达、网络模型、训练任务、系统平台，并投入大量精力逐渐构建了 proprietary 的专用训练/预训练数据

覆盖率和实效性：

配合自家 web 搜索引擎以评估来源质量，信息源和领域不设白名单，综合Clarity（清晰度）、Credibility（可信度）、Catholicity（普适性）三个 Magi 权衡知识工程的规模化和准确性难题的量化标准来进行来源质量评估。

大幅提升实时性，热点新闻发布后几分钟内，就可以搜到结构化知识了。

可塑性和国际化：

没有前置 NER 和 dependency parsing 等环节，减少母文本信息的损失。为 Magi 的提取模型设计了专用的 Attention 网络结构以及数个配套的预训练任务。具体来说，网络结构主要解决了复杂依赖关系和搜索空间爆炸的问题，让长文本下高效的 exhaustive 的知识提取成为可能。预训练任务则是对上述 “环节” 问题的新尝试，主要目标是淡化实体、predicate、领域的约束，充分利用多种不同的训练数据，并且降低线上持续学习修正过程中模型更新的开销。

技术栈完全 language-independent，可以实现低资源和跨语言 transfer。由于技术栈本身已经完全 language-independent，在设计预训练任务时，会专门 “引导” 并期望模型能在较浅层对语言有足够的抽象能力。