《[世界因你不同--李开复自传]》

下载本书

添加书签

[世界因你不同--李开复自传]- 第38部分


按键盘上方向键 ← 或 → 可快速上下翻页,按键盘上的 Enter 键可回到本书目录页,按键盘上方向键 ↑ 可回到本页顶部!

方向。所以,有些组里有各种不同的研究,每个成
员的看法都不一样,项目之问的重复、冲突都不小,
谁都不愿意听谁的。另外,没有人愿意做枯燥的技 术转移工作,往往写完论文后技术就搁下来了。
我希望改变这种状态。在微软中国研究院,我 们要放弃各自为政,要兵团作战。这个兵团有六个 将军,他们参考大家的意见然后拟定“有用的项目”。 一旦拟定,大家就全力以赴地投入战斗。因为我们 有很好的团队合作文化,每个团队的副研究员都很 “服”他们的司令,而且每个人都知道只是一个独 特的机会,无论对个人还是对中国,所以他们不惧 辛苦,也愿意下一番苦功夫。
现在回想起来,在微软中国研究院的前两年, 大家确实是在用一种拼的精神去对待工作。一批世 界一流的科学家,带领一批聪明、拼命的年轻人, 形成一个研究兵团,他们创造了奇迹,结出了硕果。
卷起 袖 子做 老 师
是不是做了院长,就可以不做项目了?我给自己
的答案是:不行。其实原因非常简单——人手不够。 当时,研究院确立的研究方向之一是“音字技 术组”,也就是教电脑听话、讲话。这个恰好是我的 博士论文的内容,但是我早就脱离了这个领域,而 且已经多年没有写程序。但在研究院,我是唯一懂 这方面技术的人,我只有勉为其难地卷起袖子,和
我招到的几位副研究员一起工作。
邸烁和陈正是清华的高材生,尽管不是学语音 的,但是 l999 年他们进入希格玛大厦的时候,选择 了语音识别小组。每天,我拿着语音的教科书,从 最基础的知识开始教他们。读完基础的课本后,他 们开始练习在这个新的领域编程,然后,我再把我 的论文拿出来,一章一章地讲给他们听。这两个年 轻人都聪明过人,可以阅读世界水平的学术论文。 另外,他们可以利用微软的“资源共享”制度,从 美国研究院语音负责人那里拿来全套的语音软件。 有了这些技术和源代码,这就像攀登 100 层的高楼,

两人一开始就站在了 50 层。他们俩进步神速,两年
后,都成了项目负责人,如今在不同的公司取得了 骄人的成绩。
在他们俩之后,我们组又来了个年轻人——高 剑峰。高虽然也是名校(上海交通大学)的博士,但 是他的专业是机械设计,方向是“工业造型”。因此, 他经历过一段颇为迷茫的时期。
那一年,我去上海交大招聘,正好遇到了高剑 峰,就问他在研究些什么?他兴致勃勃地说了他的研 究。我当头泼了他一盆冷水,说,“这个东西在美国 早过时了,你还研究什么,还不如到微软来换个有 用的题目呢。”没想到,他真的来了,闯过了应聘的 重重关卡,加入了语音识别小组。
不过,他马上感觉到了强大的压力,邸烁和陈 正不断取得突破,而他连门道都没摸清楚,有时候 遇到一个问题,他还没有弄明白是怎么回事,人家 已经解决了。
看到高剑峰非常苦恼,我开玩笑地对他说,“你 是不是混进来的啊?”他抬头看我,表情很窘迫。我

笑了笑,对他说,“你不是计算机专业毕业的,但是
我觉得你还是有潜力的,如果有不懂的问题,我觉 得你可以去请教一下组里的同事,毕竟我们是一个 团队,也欢迎你随时来找我。”
高剑峰点了点头,就去找邸烁和陈正了。这两 个小伙子一点都不吝啬,把自己知道的东西都告诉 了高剑锋,一些问题经他们点拨,就轻松化解了。 在不断的学习中,高剑峰的信心被慢慢地树立
了起来。他觉得,作研究就像一场长跑比赛,遇到 了高手,被人家甩得很远,不能着急,不能乱了方 寸,该怎么跑还是怎么跑。他后来总是告诉新来的 研究员不要在意中途的快慢,最后胜出的人,才是 真正的胜者。
高剑峰就这么跟了几年,先学着跑,再自己跑, 渐渐地不再感觉累。到了第四年,他已经是“项目 带头人”,换句话说,他也是一个“领跑者”了。现 在,他已经转到微软美国,在那里做资深研究员。 语音识别不是仅仅把每个字分别识别出来,而 是像人一样,要运用到语言的知识。中文有一个特

殊的问题,就是分词。一个笑话就是“杭州市长春
药店”,人们看到这个店名的时候,自然而然地知道 是“杭州市/长春/药店”。但是仅仅向前推一个字, 电脑很可能会识别成为“杭州/市长/春药店”。
如何做到正确的识别呢?我告诉陈正:“国内的 语音识别往往是先分词,然后识别。这是彻底的错 误,因为第一次分词总可能出错,一定要同时分词 和识别,经过所有的排列与组合,挑选出最好的结 合。”
然后,我发现我们的语言模型语料远远不够。 语言模型的功能是经过大量的统计,来判断在下一 个位置最可能出现哪些字,比如说,看到“尊敬的 李”时,我们可能预测下面会是“先生”、“老师”、 “女士”等词,各有不同的概率。我对他说,“在中 国做语音搜索统计,只联系到前面的一个词,但是 中文的语言特点是歧义特别多。仅仅依靠向前推一 个词,电脑并不能作出正确的判断,至少要向前推 两个词。”我们请黄昌宁教授去开始一个语料采购的 计划,训练出这样推两个词的语言模型。

另外,中文和英文很大的一个差别就是中文有
四声的识别。这方面团队很快地做了一个四声识别 器,和整体的识别系统结合起来。就像分词一样, 一定不能先把四声识别出来,而要考虑所有的可能 性,再作出总体最优的选择。
在他们三人以及后来加入的几位副研究员的努 力下,很快,一个中文语音识别系统就做出来了。 此后,陈正和我发现这个系统不但可以做语音 识别,也可以做拼音转换。我们尝试了一下,果然 转换率比当时任何系统都要高很多。除此之外,我 们还发现可以用统计模型做出一种奇妙的功效—— 自动纠正人为造成的拼写错误,也就是说,如果你 打入:“zunjingdelixansheng”,这个系统可以发现 你少打了一个“i”,而自动转换成“尊敬的李先生”。 后来,这个项目,由陈正做内核的技术,王坚做用
户界面,成为了一个高质量的输入法。
在短短的一年内,这个五人团队就做出了多项 傲人的成果:中文的四声识别、最精确的输入法、 中文的听写机,还有多用途的统计语言模型。这些

项目都符合了我们“有用”的目标,也用我们的“兵
团”模式迅速获得了成果。
与此同时,研究院里其他小组,都在为有用的 梦想而全力打拼。
向比 尔 汇报
在研究院成立之初,我就有一个愿望——有朝 一日,我要走进比尔盖茨的办公室,向他展示微软 中国研究院的成果。
这种汇报,是展示中国智慧最好的机会,也是 让比尔信任“中国智慧”的最好契机。我希望中国 研究院因此获得更多的经费和更有力的支持。
从进入研究院开始,我就把这个愿景分享给我 的同事和朋友们。因此,向比尔汇报,成了我们共 同的梦想。在美国出版的一些有关微软和比尔盖茨 的书籍中,“向比尔汇报”是一个最引人入胜的章节, 它们像武侠小说那样跌宕起伏、玄机重重。一方面,

它给你无与伦比的愉悦;另一方面,盖茨有可能在
最短的时间里挑出你报告里的问题,然后步步紧逼, 让你无法招架,最后,你非但得不到半点成就感, 还会被潮水般的质疑和批评淹没。
因此,如果没有百分之百的把握,是不能到比 尔那里去汇报的。
盖茨的时间富贵,所以每个产品团队每年最多 向他汇报一次,但他特别重视研究院,所以公司每 个季度都会安排汇报。
1999 年 6 月,里克雷斯特来北京参加“21 世纪 的计算”大会,看到研究院做出的一些初步成果。 他找到我,说:“开复,我本来想安排你明年 2 月给 盖茨作汇报,但是现在看来,你们已经达到了见他 的水平,要不然你今年 10 月就去见他吧!我来安排。”
我又惊又喜。一回到希格玛,就把这个好消息 告诉了大家,他们和我的感觉一样,既兴奋又紧张。 我也趁势鼓舞大家,“我们手里的研究项目可要加快 节奏了!大家要加把劲了!”
从那一天起,整个研究院进入了一种“备战”
状态。
那是整整一个月的不眠夜!
音字技术组,我们的语音识别系统已经装入 5 万个中文单词,但是四声的识别总是出问题。另外, 我们从《人民日报》社买了大量的语料,邸烁负责 这些语料来训练我们的“语言模型”,做软件开发的 孙燕峰,则负责把“模型”融入一个更大的系统, 他马不停蹄地奔走于北京和雷德蒙之间,不分昼夜。
多通道用户界面组,王坚和陈正一直在完善他 们的无模式用户界面,直到我带去美国的前一分钟, 他们还在调试。
网络多媒体组,亚勤交出了他的多媒体压缩成 果。而且,在 MPEG4 的标准里,组员李世鹏得到了 一个国际标准,这不但是微软贡献的标准,也是中 国贡献的标准。
形象计算组,沈向洋正在完善他的三维模拟环 境,让你用一台普通的电脑,就能进入一个逼真的 三维环境,并漫步其间。他的技术,是基于数十万
张图片的粘贴,与前面提过的苹果 QuickTime VR
很像,但更庞大、更逼真。
多媒体计算组,张宏江做出了聪明的图片检索。 你只要圈出一个人的脸,他的系统就能在图库里找 出更多这个人的脸,这个系统还能做视频分类,把 足球、篮球、田径都精确地自动标出。
1999 年 10 月 18 日,微软雷德蒙总部一如往常, 中国研究院的第一次“向比尔汇报”静悄悄地开始
了。
中国研究院的六位同事,第一次穿了同一款衣 服——全黑色纯棉夹克,作为汇报人,我穿了件纯
黑色的 Polo 上衣。
小提示:按 回车 [Enter] 键 返回书目,按 ← 键 返回上一页, 按 → 键 进入下一页。 赞一下 添加书签加入书架