现在的位置: 首页 > 互联网 > 正文
【转】Siri
2012年02月08日 互联网 ⁄ 共 8143字 评论数 1 ⁄ 被围观 2,228 views+

iPhone 4S 发布的时候, Apple 向世界展示了 Siri ,然而,当时人们沉浸在想象里全新 iPhone 5 未出现的失望和随后乔布斯去世的巨大悲痛中,认为新的 iPhone 4S 乏善可陈、没有诚意, Siri 不过是原有语音控制的加强版。甚至有网友因此给 iPhone 4S 起了一个更本土响亮的名号:“金立语音王”。

当然啦,这种评论笑笑开心就好,不然就是把无知当幽默了。可问题是,正是如日中天的 Apple 会在众多竞争对手奋力追赶的紧要关头抛出一款仅仅带有一个无关痛痒的加强版语音控制功能的 iPhone吗?

SIRI历史回顾

Siri 直接发端于人类史上最大人工智能项目——五角大楼的 CALO。 2003 年的时候,DARPA (美国国防部高级研究机构)发起了一个相关项目:“ enduring personalized cognitive assistant ”,这个项目便是 Siri 的前身,在当时被称为 CALO(“ Cognitive Assistant that Learns and Organizes ”的缩写,意即“具备学习和组织能力的认知助理”)。而负责这个项目的,是 SRI (斯坦福研究院)。

1964 年 SRI 一个名叫 Doug Engelbart 的人类增智研究中心主任,发明了一个木制的小盒子,有一个按钮和两个互相垂直的滚轮,另外还连着一条长长的尾巴连线,Doug 将它命名为“ 显示系统 X – Y 位置指示器 ”。你说:“这是什么东西?听都没听过!”但事实上我保证你知道它,因为它还有另外一个名字,没错,就是你现在手上拿的那个,叫做“鼠标”。

1969 年中华人民共和国国庆节,由BBN公司生产的第二个方方正正的、像冰箱一样的接口信号处理器(当时重达 400 多千克)被送到了 SRI 的人类增智研究中心,和 SRI 已有的 SDS940 主机用一条电话线连了起来。随后拥有第一台接口信号处理器的 UCLA (加利福尼亚大学洛杉矶分校)向 SRI 发了第一条信息,消息内容非常简单,就是一个英文单词:“ login ”,悲剧的是,“ l ”和“ o ”都被成功传输了,但是传“ g ”的时候整个系统给崩溃了(难道这就是传说中 G 点的由来?)于是他们认识到,为了让计算机之间进行有效的传输,需要有一台计算机充当连接器完成信息互传。有了这个正确的思路后,那些死阿宅们召开了国际网络工作组会议,宣布了一些协议的草案。你会说:“这是什么屁大点事?我天朝不是成天召开代表大会宣布草案吗?”但是后来这个玩意儿被人们称为“互联网”。

1966 年至 1972 年间 SRI 的 Nils Nilssen 和 Charles Rosen 等人搞出了一个叫做 Shakey 的玩意儿,这个东西在现在看来好像来自一个名叫塞伯坦的外星球,但是那时候人们把他叫做“自主移动机器人”。 Siri 曾经是 App Store 上的一个 App,2009 年 2 月, Siri 登陆AppStore。2009年 3 月, Apple 收购Siri (应该是在 4 月底达成协议)。2011年10月,Apple 发布了高度整合 Siri 的 iPhone 4S ,同时 Siri 从 iTunes 下架(其实自收购之日起就未再更新),并宣布其服务将于 10 月 15 日停止,为 iPhone 4S 所独享。

APPLE发展回顾

有人会问,Apple 的观点很重要吗?它看重 Siri 就代表我们必须要关注吗? 事实上,Apple 的身影几乎贯穿了整个计算机和互联网的发展史: 1983年发布了第一个桌面隐喻(即图形操作系统),而此时 IBM 还在文本里挣扎; 1984 年,第一支民用鼠标(事实上,鼠标和图形界面都不是由 Apple 发明的,而是早年“硅谷海盗”从施乐公司的 Palo Alto 研究中心“偷”来的。但 Apple 确实在普及鼠标和图形用户界面上起了至关重要的作用。

从早期的 Lisa 和 Apple IIs 开始,鼠标就是 Apple Computer 的标配了。); 在1984年推出的 Macintosh 上开始使用 3.5 英寸软盘,而 3.5 英寸软盘的真正普及( IBM 终于承认 5 和 8 英寸软盘的不便并开始使用 3.5 英寸软盘)是在 1987 年; 1990 年,Apple 完全弃用了 3.5 英寸软盘,在那次圆桌会议上展示了整合文字、图片、音频和视频的存储设备—— CD – ROM ,这在当时遭到了绝大多数厂商的嘲笑,然而两年后, CD – ROM 开始融入人们的生活,后来的 DVD – ROM 也是 Apple 率先使用的; 众所周知,USB 是微软、Intel 等公司在1994年发起的一项数据传输解决方案,但却由 Apple 参与订立标准,并率先使用,而等到 USB 2.0 开始普及的时候, Apple 早已开发出并开始使用火线 Fireware(USB2.0接口速率为480Mbps,而Fireware 800为800Mbps,速率近两倍,而且更加稳定),当然,Windows 用户并不熟知这一名字,因为它还有一个更响亮的名字,叫做IEEE 1394。

等到 USB 3.0 刚刚开始应用的时候, Apple 直接越过了它,将 Thunderbolt 雷电接口(基于光纤进行数据传输,现行速率被限制在10Gbps,是 USB 3.0 的两倍,而理论最大可达50Gbps,相当惊人)安装在了 Mac 上; 大名鼎鼎的 802.11 被人们所耳熟能详是从 Intel 推“迅驰”的时候开始的,从那以后无线技术成为了所有笔记本必备的功能,可是 Apple 早在1999年就开始使用了并大力推广,只不过那个时候不叫WIFI,而叫 AirPort; 从2001年开始, iPod + iTunes 的模式将整个世界的音乐市场从新洗牌,从那时开始所有的传统音乐巨头纷纷束手,造就了 iTunes Store 世界第一音乐商店的多媒体帝国; 2007年,乔布斯向全世界宣布, Apple 重新发明了手机。正是那个时候,人们知道了一项技术,叫做 Multi – Touch (多点触控),随后这项技术被加入了 Macintosh 的触控板里,又加入了魔术鼠标里,这使得 Apple 成为第一个全面使用的这项技术的公司。那一年,乔布斯放出狂言,说这将使得 iPhone 领先其他厂商的手机整整五年。五年后我们再看那一年 WWDC 的 Keynote ,我们知道此言不虚。

2008年,Apple 推出了世界上最薄的笔记本计算机 MacBook Air ,当它从信封里被抽出来的那一刻,宣告了 Apple 开始了它完全弃用光驱的征程,于是真正意义上的互联网时代开始了。因为 Air 这个词意味着“轻如空气,薄如裁纸和无线传输”。 2010年, iPad横空出世,上网本迎来了末日,无数厂商纷纷效仿,不但全世界出版业被迫接受 Apple 所带来的变革,更重要的是后 PC 时代,大幕开启。

以上列举这么多,并不是为了给 Apple 歌功颂德,而是想让这些证据支持一个观点,那就是: Apple 有着超越整个行业 3 – 5 年的眼光,所以它的观点,非常重要。 尘封的历史是如此夺目,2011年 Apple 向世界献上了 Siri,那么 Siri ,一定不仅仅是语音控制那么简单。

什么是SIRI

在刚刚结束的 2011 Apple Special Event 里,Scott 问了 Siri 一个问题:“ Who are you ? ”(你是谁?) Siri 的回答是 “ I am your humble personal assistant. ”(我是你谦卑的、私人助理。) 但我们明显还是不知道 Siri 究竟是什么。 总结一下吧,如果你时常梦想着自己是大雄,可以跟哆啦A梦说你把随意门拿出来吧我想去看静香洗澡,那么 Siri 事实上是哆啦A梦的 father 。

举例: 第一个,这是在网上很火的一段网友和 Siri 对话的记录,你就可以知道 Siri 是多么智能

Jim: I love you, Siri

我(机主):我爱你,Siri !

Siri: Impossible

Siri :不可能,别调戏我!

Jim: No really, I love you

我:真的,我真的爱你。

Siri: I hope you don’t say that to those other mobile phones, Jim

Siri :我希望你别跟其他的手机这么说,吉姆。(是幽默还是真的会吃醋?)

Jim: No way, I only love you Siri

我:不可能!我爱的只有你!

Siri: You are the wind beneath my wings

Siri :你是我羽翼下拂过的微风(我查了一下,事实上这是一句脍炙人口的歌词这是什么浪漫的修辞手法==)

Jim: That’s nice. I’m glad you know I love you

我:你能这么想实在是太好了~我很高兴你知道我爱你~

Siri: All you need is love. And your iPhone

Siri:吉姆,你的生命所需要的就是爱和 iPhone

 

第二个例子出现在 Siri 被苹果并购前的演示里。

当你说:“ I’d like a romantic place for Italian food near my office. ”

Siri 回答说:“ I am looking for a Italian restaurants which reviews say romantic near your office in San Jose … ”

这说明,Siri 知道你的工作地址在哪,餐馆应该靠近你的工作地点,并且,她甚至知道怎么判断一个餐馆是否浪漫(romantic)! 你把同样的话问一遍 Android 的 Voice Action 或者 Vlingo ,你就知道 Siri 跟他们根本不是一个次元的。

所以 Siri 压根儿就不是 3 年前你对着 NOKIA 手机喊“拨打电话给XXX”的语音控制,而是真正能理解你的所需和要求并且完成特定任务的人工智能,这是自从鼠标键盘和图形界面的第一代人机交互之后,划时代的第二代人机交互的雏形。 Siri 威胁了谁 从目前 iOS, Android, 和 Windows Phone 7 三足鼎立的智能手机局面来看,Siri 的出现似乎是帮助 iOS 威胁了 Android 和 WP7 的市场份额,但事实上 Siri 真正威胁的,是整个搜索行业。

回想一下,我们通常都是怎么使用搜索引擎的? 打开浏览器 → 打开搜索引擎主页 → 输入你想查询关键字 → 提交进行查询 → 搜索引擎返回搜索结果 → 然后你需要在一堆结果里找到你想要的信息(这取决于你关键词的质量) 这个流程实在是太慢太复杂太麻烦了。 而这个时候 Siri 出现了,她出现的意义是,Siri 将变为“入口”,所有的应用程序和网络服务都将隐身其后。那么这个流程将变为:跟 Siri 对话 → 得到结果(中间自动完成的过程为:开始语音识别 → 进行智能分析 → 了解用户意图 → 调用本地应用或者网络服务的 APIs → 整合所有结果为最合适的内容呈现给用户) 这样用户获取信息的流程被最大程度的简化了。

但要说 Siri 代表着未来,我们必须给出更加令人信服的理由。 那就是 Siri 所代表的理念。 首先我们先来看一下 Google 的理念是什么? 是 SaaS ,即传统搜索 + 各种在线的软件服务(如定位、照片、文档、邮件等等等等的在线应用服务)。 那么 Google 搜索现在最大的敌人是谁? 是结构化数据 + SNS,或者可以称之为区域搜索。它的代表应用,是 Yelp 。

幸运的是手机移动版的 Google 和 Yelp 都支持 LBS ( Location Based Service 基于地理位置的服务 ),我们可以很直观的对两者进行对比: Google 的方式非常传统,打开手机浏览器 → 进入 Google 主页 → 点击更新目前所在位置 → 点击 Near me now 进行区域搜索 → 出现咖啡馆、餐馆、银行等等供你选择 → 点进去查看详细信息。

Yelp 的方式是什么呢?在著名的 Monocle 模式下,你只需要举起手机,就可以立即得到前方所有的餐馆信息,而且价格、评级等等一目了然。 结果非常明显,Yelp 轻而易举地完胜了 Google ,这就是区域搜索,这就是专注的力量。

那么 Siri 是什么呢?Siri 是 Google 和 Yelp 的混合。 Siri 的理念,我觉得可以称之为 IaaS ( Information as a Service ),即准确的、整合的信息服务。 注:IaaS 更为著名的是另一种实现云计算服务的缩写:Infrastructure as a Service,即“基础架构即服务”

事实上,云计算公认的模型有三种:SaaS (软件即服务)、PaaS (平台即服务)、IaaS (基础架构即服务) Google 是以数据为中心,利用算法组织数据; Yelp 是结构化数据,通过 SNS 进行优化; Siri 是 Google + Yelp ,即建立在传统数据搜索、结构化数据和 SNS 上的人工智能结果的输出。

那么 Siri 会怎么做呢?从Stuff.tv 的一段视频我们或许可以窥得一点端倪: 一个黑人女子用十分明显的英式英语问 Siri :“ Will it rain tomorrow ? ” Siri 立即做出了反应,用一个男性声音回答道:“ In the London, it doesn’t look like it is going to rain tomorrow. ” 也就是说,Siri 识别出了英式口音(此为推测),直接去定位伦敦的天气,然后告诉机主结果是“ 看起来不会下雨 ”,还使用了委婉语气。

中文的支持

众所周知,Siri 现在是 Beta 版本,因为 Apple 还在给她加入更多的功能和语言支持。 Siri 现在支持三种语言:英语、法语和德语,其中英语支持三种口音:美式、英式和澳大利亚口音。 那么 Siri 最终会不会支持中文呢?

会。因为 Siri 基于的 Nuance 技术早就已经支持中文了,而且虽然乔布斯从没来过中国,但是非常重视中国市场,第一代 iPhone 发布的时候就已经内置了完整的中文支持。有人对这个解释很不满意,认为从来没有一次中国大陆是在 iPhone 的首批发售国家和地区之内,总是要隔上两三个月,这说明 Apple 从来不重视中国。

这种想法,是天真的。你需要知道每一部手机在大陆的合法上市都是需要经过天朝的一个神秘机构——工信部——的认证的,这个机构会把每一部未上市由厂商送来认证的手机的每一个零件都测试一遍看他是否符合工信部的标准,而以 Apple 的极端保密公司文化是不可能在发布会之前送交认证的。所以就算发布会之后第一时间送去认证,也得等工信部的大佬们把玩几个月,点头许可了才能大量铺货。中国这么大潜力的市场, Apple 又不傻,怎么会不想第一时间铺货?所以是多方面的原因导致了 Apple 不重视中国市场这一假象。

以上离题了,以下继续。 那么 Siri 支持中文困难吗? 非常困难。因为汉语是世界上最难、最特殊的文字,它对声音的依赖非常小,这就为什么普通话、粤语、闽语等等这些方言的发音完全不同却仍然可以使用相同的汉字无障碍交流,而且汉语的同音字同音词太多了,而且并无固定语法(汉语语法是从英语语法引入的,汉语从来就没什么语法),所以这将给 Siri 的理解带来巨大的麻烦。(白天鹅在游泳究竟是“白天/鹅在游泳”还是“白天鹅/在游泳”呢?)

Siri 对方言的支持会怎么样?

在 iPhone 4S 的发布会上有这样一个细节:Scott 给 Siri 说:“ Remind me to call my wife when I leave work. ”(在我下班离开公司的时候提醒我给老婆打电话。)Siri 立即在提醒事项里加了一条:一旦 iPhone 的定位系统发现目前的位置偏离了公司的位置,就马上提醒 Scott 打电话给 Molly 。这说明 Siri 知道 Scott 的老婆是 Molly !她是怎么知道的?只有一个解释,她是在之前跟 Scott 的沟通中知道这件事的。 注:Scott 在演示中说Siri 有一定的逻辑能力,但不知是在单次会话中存在,还是将会整个会话过程中存在。

也就是说,Siri 在不断地学习,她在一点一点地了解你,并且适应你的习惯。当然,这种学习的能力在人工智能雏形的初期阶段肯定是非常非常有限的。 还记得那句话吗?I am your humble personal assistant. (我是你的谦卑的、私人助理。)她是你的私人助理,只服务于你一个人的助理。

就算支持了中文和方言,Siri 在中国会好用吗? 短时间内不会很方便。因为 Siri 是“调用本地应用或者网络服务的 APIs + 整合所有结果为最合适的内容呈现给用户”,在国外,各大小网站都自己的 APIs,这样 Siri 才可能有用武之地。要订餐,直接调用第三方订餐网的 API ;要叫出租车,直接调用叫车网站的 API;要看电影,直接调用电影院的 API 把座位一订??而在中国开放自己 API 的网站少得可怜,Siri 再逆天,也是个摆设。

有人会问百度最近不是在搞“框计算”吗?“框计算”的前景不是被描述的非常美好吗? 当你输入的是地址的时候,它会直接显示地图并标注地理位置; 当你输入的是食物的时候,它会直接显示出食谱并教你做法; 当你输入的是天气的时候,它会直接显示天气预报和未来几天的走势; 当你输入的是影片名称的时候,它直接显示影片信息并将你带到在线浏览服务; 如果 Siri 和“框计算”结合起来,一切不都完美了么! 这个愿望是很美好的,但是现实是很扯淡的。

我的意思是,如果这些服务都由一家公司来搞,那是几乎不可能的,而如果调用每个网站的 APIs,很方便就可以实现。先别说百度“框计算”这种本地 Command + F 式搜索效果如何,我们看看它的意图究竟是什么。 Google 搜索的核心想法是什么呢?尽快让用户离开搜索页面! 而百度的“框计算”是想干什么呢?尽可能让用户留在百度的页面,时间越长越好!

Google 的做法导致的直接后果就是,越来越多的第三方网站开放越来越多的 API ,搜索结果将越来越准确、越来越迅速、越来越符合用户的意图,互联网将越来越有活力。( Google 自始至终都是一家数据型公司,而非服务型公司。他 SaaS 服务的算法实在是太 NB 以至于在传统搜索方面他根本无可匹敌。他的 PageRank 算法可以根据每个网站的评级而进行权重,在搜索结果中根据关键词匹配和 PageRank 来排序。Google 从来的所作所为都是信息的收集而非控制 —— 他的控制都是算法控制,而非人为干涉:PageRank 算法的改进、对原创内容的权重加强、Google Instant 【即瞬时搜索】、还有每天让 Google 损失巨额广告费的 I feel luck 【即手气不错】。)

百度的“框计算”为什么叫“一站式”?就是说用户从此只需要这一个网站,选择由百度替用户决定,内容由百度把持和筛选,这种做法导致的直接后果就是,阻截大部分网站的流量,将用户尽可能地留在自己的网站(这就是为什么说百度搜索越来越像百度站内搜索),这样一来,等于断了其他网站的后路。小规模的、第三方的网站将越来越难生存,互联网逐渐失去活力,“框计算”不但垄断了搜索结果,也垄断了消费者的选择。

目前有 1 条留言 其中:访客:1 条, 博主:0 条

  1. Brenda : 2012年02月13日04:45:42  -49楼

    我喜欢,顶一个!

×