赫尔辛基天气预报30天查询表_赫尔辛基天气预报30天查询
1.谢义炳是做什么的
2.中文的来历
导语:芬兰位于欧洲北部。这个国家三分之一的土地在北极圈内。它被称为“千湖之国”,也被认为是圣诞老人的故乡。去芬兰旅游也是很多人的旅行。那么,芬兰什么时候去?有什么好玩的?让我们和边肖一起来看看吧。
最佳旅行时间
芬兰一年四季都适合旅游,不同季节呈现出不同的风景,值得驻足欣赏。
极光季节:9月-11月
虽然冬季漫长的芬兰非常适合极光的观测,但寒冷的季节并不总是观测极光的最佳时机。如果你想在旅行中更自信地欣赏极光,请尽量在秋天去。极圈的天气在秋季并不善变,下雪天较少,晴朗的夜晚更适合观测极光。
雪季:11月-次年4月
芬兰冬天的雪量惊人,恰逢春节期,也是国内游客最多的季节。在这个季节,在芬兰旅游,可以体验冰屋酒店、哈士奇雪橇、室外等活动。而且你还可以在芬兰的专业滑雪场一试身手。不过出行要注意交通安全,而且由于降雪比较集中,观测极光还是要靠点运气的。
夏季:六月至八月
夏天可以去芬兰南部的图尔库群岛避暑,这一点很少被环游北欧的国内旅行者注意到,是炎炎夏日的一个逃避选择。周围有很多国家公园,非常适合亲子游。被称为“千湖之国”的芬兰,夏天会呈现出一派生机勃勃的景象,与冬天截然不同。热爱户外和自然风光的旅行者不要错过。
芬兰旅游路线
芬兰经典8日线路:
D1:赫尔辛基大教堂乌贝斯基东大教堂露天市场
D2:岩石教堂波尔瓦大教堂赫尔辛基中央火车站。
D3Kemi:破冰船Sampo。
D4:北极中心和拉普兰省博物馆圣诞老人村
D5罗瓦涅米:BearhillHusky
D6罗瓦涅米:维多利亚滑雪度村中心
D7罗瓦涅米:维多利亚滑雪度村中心
D8基蒂拉:基蒂拉机场
芬兰赏极光7日线路:
D1:波尔瓦大教堂赫尔辛基大教堂乌斯别斯基东大教堂露天自由市场。
D2:破冰船桑波号雪之城堡
D3:拉努阿野生动物园圣诞老人村圣诞老人办公室圣诞老人邮局。
D4:奥纳斯山滑雪场
D5:北极中心和拉普兰省博物馆
D6:BearhillHusky
D7:艾瓦罗机场
冬季装备
连衣裙
冬天去芬兰,“有多冷”“需要穿多厚”是第一个问题。提前关注目的地的天气预报。芬兰北极圈冬季气温可能达到零下40度,多风多雪。厚的和中长的羽绒服一定要备好。
可以准备的保暖衣物还包括天鹅绒保暖裤和防风保暖裤,羽绒服下面可以根据个人的体感选择毛衣或者其他衣物。羽绒服最好选择防水材质,因为极圈雪多。如果外套不防水,下雪后就比较麻烦了。
如果你冬天在芬兰参加户外活动,正规的活动公司会提供户外保暖衣物、鞋子、手套等装备,保证你在户外不会被冻伤或感冒。
鞋
一定要选择防水防滑的鞋子,最好是靴子,保证脚踝不受凉。
附件
保暖帽(最好是能保护耳朵的雷锋帽、耳罩、围巾、手套都是必须的。手套最好防水。
保暖设备
各部位暖宝宝都可以考虑携带。
谢义炳是做什么的
去挪威的时候一定要注意一些东西,那就是电话卡还有签证、货币之类的,这些小编要和大家好好和说说,大家也可以看看还有什么是要补充的。
电话挪国家区号为0047,各地无地方区号,从国外向挪拨打电话是0047+电话号码,在挪国内相互拨打电话直拨电话号码即可。从挪向中国拨打电话为0086+区号+电话号码,如拨打北京电话,0086+10+电话号码。
挪威电信业发达,各个通讯公司都有不同的套餐供用户选择。其中,挪威国家电信公司(Telenor)是挪最大、全球第六大移动通信运营商,CHESS、LEBARA等公司的通讯服务也很适合短期旅游者。在挪威购买电话卡时,销售者会要求购买者留下个人信息,一般旅行者使用护照号码即可。
大部分的超市、便利店和加油站都可以买到预付费手机卡,里面包含话费。以ChessKontantGlobal为例,手机卡为100克朗,内含50克朗资费。挪威境内通话资费为接通费1克朗加通话费每分钟0.9克朗。短信0.4克朗,3G漫游每兆流量5克朗(每天20克朗封顶)。买卡的地方都可以充值。在峡湾的大部分地区手机信号都比较强,通话没有问题,但是3G网络可能比较差。
网络挪威互联网发达,一般酒店都会提供互联网服务。一般旅馆和青年旅舍内都有wifi,较大的咖啡店、公共图书馆也都有免费上网,但可能需要索取密码。
相关问答1.北欧三国,挪威,丹麦,瑞典,上网是换手机卡还是租wifi盒子?
你可以去网上搜索一下漫游超人,你也可以去搜索海鸟窝,他那边也有漫游超人漫游宝之类的租赁WiFi,挺不错的,经济实惠。
2.去挪威怎么解决必要的上网问题
租租车的GPS都是多语言版本,中文版在国外使用也只能输英语或当地语言地名。租移动Wi-Fi在挪威使用没有问题。
欧洲电话卡刚好飞猪搞活动满1千减多少那样子,就和群里人一起合伙买电话卡。超级划算。牌子是vodafone,德国的运营商,在北欧用就相当于数据漫游,一路上信号都挺好的。住宿的wifi有时候很慢,都只能靠4G或者3G。
其实我还是推荐用电话卡,价格上不算贵,用完可以丢。虽说wifi蛋可以分享网络。但多个蛋要多带蛋的充电线。路上充电不止要充手机,还要充蛋,多麻烦。
货币芬兰,荷兰是用欧元,挪威是用挪威克朗,冰岛是用冰岛克朗。
去中行换了一些欧元和挪威克朗,最后欧元,挪威克朗还用剩很多,北欧这地方基本上刷卡多,现金用得少。在飞机上消费也可以刷卡。在冰岛的5天,我还没见过冰岛克朗到底是长什么样子的。冰岛克朗在国内换不到的。
我特意新办了一张招行全币卡,准备回国前,卡都准备刷爆了,因为我几个人一起刷。全币卡回国只要还人民币就好了。
说起刷卡,有时候要密码,有时候又不需要密码。甚至IC只要靠近一下就可以扣钱了,多吓人。幸好回国后没发现有盗刷现象。
现金不需要换太多,带就好了。
签证、机票、现金<签证>原则其他攻略也说了无数次了,如果去北欧多国就申住宿最多的国家,如果住宿天数相同就申入境的国家。准备的材料就是申根那一套大同小异,我们是瑞典签证,请看楼主先生的强力吐槽:在这吐槽一下瑞典的签证中心,各种捆绑服务,比如收快递费、短信费然后和网上说的一样,自己准备的照片按照他们的标准一丝不差,但到了现场根本就合格不了,必须本人去那照。基本上440的签证费加上各种乱七八糟得700。
<机票>图便宜订的是俄航,我们提前3个月左右预定了北京-(俄罗斯转机)-赫尔辛基;斯德哥尔摩-(俄罗斯转机)-北京的国际段开口行程,价格是含税3337/人,可以说是相当划算了,给大家做个参考。不过据我观察,国内去北欧的机票都不贵。
<现金>心大二人组在出国的时候钱包里只有欧元现金和。然后全程表示可以不用现金,至少我们在瑞典和挪威都没用上。当然,我们也没有在街边冰淇淋车买冰淇淋
极光Tips1.网上的极光攻略大多不如运气管用,包括本攻略。
2.如果第一次看极光最好还是有一个看过的人告诉你什么是极光,要不然容易在极光不是很强的时候错过。这个时候如果报个极光团是个不错的选择,但是如果像我们一样的不想花钱就期待极光强烈,那时候一眼就能看出来。(低强度极光就像白色的薄云,但是变化很快。)
3.当极光强度低的时候,极光没有照片中的美好,一台好的相机+好的技术能帮你看到更加美丽的极光。(个人经验是,把光圈调到最大,焦距无穷远后回一点点,ISO几百就行,然后曝光10至15秒基本上就可以了)。极光团的第二大优势,会有人教学你怎么拍极光,我当时很想去旁听,但是不好意思。当然,有一个好的朋友可以省去你很多麻烦,比如告诉你怎么用相机或者干脆可以借给你一台相机。
4.眼睛可以看到绿色的时候,基本上就可以用手机的auto模式照下来极光了。当然,请使用把照相作为宣传点的手机,如水果,boom,菊花,蓝绿等旗舰。(楼主并不知道他说的是什么黑话)
5.看极光一定要天上没有云,一定要天上没有云,一定要天上没有云(当然,少量的云也是可以的)要不然一定会大大影响极光的观看效果。如果完全阴天或下雨请在酒店睡觉。但是,你没有那么时间等天好怎么办?可以报一个带你去追极光的团;或者可以下一个有分时天气预报的软件,看着天什么时候睛,然后让闹铃叫醒你。当然,你也可以选择坐在酒店的窗前一直看天。
6.地面的光对极光的影响其实没有想像中的大,所以没必要非要到完全黑的地方去看,虽然说北欧极光地区相对还是很安全的(我感觉主要是因为没有坏人到这种冰天雪地、鸟不拉屎的地方来,性价比太低),但是自己在一个特别黑的地方还是很恐怖的,尤其是看不到极光又不兴奋的时候,所以找个人多点的地方还是正确的选择。
7.你已然在北面了,所以在看极光的时候不用非找到北,极光可能出现在天上的任何地方。但是,个人总感觉还是北面多一点。所以,找一个能看到四面八方的地方是最好的观赏点,比如湖面中心,比如山顶。
8.不要相信什么极光一般在几点到几点出现这样的鬼话,只要没有太阳,随机都有可能出现极光。
9.一定要多穿,在一个地方站几个小时等光还是很冷的。尤其是湖面、山顶这种地方。如果温度低,请注意你的手机和相机也是要保温的。
10.极光的预测软件是必须品,可以帮助你知道什么时候极光会强。推荐:AuroraAlerts(这个可以看当地实时的情况和短时预报,以及天气,月亮、日出日照落等等,长时和提醒是收费的)和AuroraFcst(这是网上后会推荐的人很多,可以看长时和各种看不懂的专业数据)。其实基本上所有软件的提醒功能都是收费的。
11.个人感觉农历每月的月末月初极光都相对强一点,而且这几天也没有月亮,所以相对适合看极光。但是最主要的还是看命请相信预报和实时的指数。
12.关于极光与人物的合影,我表示我没有一张清楚的人像,唉然后,还是学习一下PS技巧。(当然最主要是因为这个帖子的主人非常慷慨的把NB相机借给了我但是,唉明显还是不会用至于为什么会借相机,当然是因为我长得美了好吧,是因为我们两个是同学)
13.补一句极光团,传说分两种,一种是到指定地方看,一种是开车追极光,虽然我们没有报,但是简单打听了一下,后者比前者贵,但是看到了机率会变大。
中文的来历
谢义炳
谢义炳(1917.4.3-1995.8.24),湖南新田人,气象学家,中国气象学界的一代宗师和奠基人。
民国三十二年(1943年)获浙江大学硕士学位,1949年获美国芝加哥大学博士学位,1952年加入九三学社,1980年当选为中国科学院学部委员(院士)。
谢义炳一生从事气象教育与科学研究,致力于灾害性天气和气候研究,为中国气象现代化和世界气象科学的发展,做出了巨大贡献。
中文名:谢义炳
国籍:中国
民族:汉族
出生地:湖南省新田县
出生日期:1917年4月3日
逝世日期:1995年8月24日
职业:教育科研工作者
毕业院校:清华大学
主要成就:1980年当选为中国科学院学部委员(院士)
代表作品:《天气学基础》、《天气学》
人物生平
民国六年(1917年)四月三日,谢义炳生于湖南省新田县知识分子家庭。父亲是清末秀才,青年时就读上海南洋公学,获湖南省第一届公费留学英国,回国后历任湖南省高等工业学校、东北大学、广西大学教授,兼广西大学理工学院院长。谢义炳之兄毕业于东南大学,任湖南大学教授兼副教务长。谢义炳早年丧母,由祖母抚养。
民国十八年(1929年),进入中央大学实验学校初中部,后升入扬州中学高中部。
民国十九年(1930年)冬,哥哥坚决把他调到自己身边,进入南京中央大学实验中学(现南京师范大学附中),教他如何读书、如何建立数学思维。
民_二十四年(1935年)夏,谢义炳以优异成绩考入清华大学理学院,希望攻读天体物理学。
民国二十七年(1938年),秋季到达昆明西南联合大学复学,并决定学习气象学。
民国二十九年(1940年),毕业后任贵州省气象所观测员。
民国三十年(1941年),谢义炳进入当时迁到贵州遵义的浙江大学研究生院,师从涂长望教授,从事地方性天气与气候及历史气候变化的研究。著有论文《贵州的气候》及《清代水旱灾周期研究》。
民国三十二年(1943年),毕业获硕士学位,任中央气象局技士,从事地方台站的业务指导工作,巡视陕西、四川、广西各地气象台站,并协助举办观测人员训练班,扩建气象观测网。
民国三十四年(1945年),美国做出战时科技人员培训并提供培训经费一年,谢义炳考取后赴芝加哥大学学习,并在美国气象局中期天气预报科实习,期满时获得芝加哥大学奖学金,留美继续深造。
1949年,谢义炳以论文《北美冷涡的选例分析》取得哲学博士学位,并留校进行博士后研究工作。
1950年9月,回祖国后任清华大学气象系副教授。
1952年,高等学校院系调整后,转入北京大学物理系,升任教授,后被任命为物理系副主任并主持气象专业的工作。
1955年,任北京大学物理系系副主任,主持气象专业工作。
1959年,北京大学地球物理系成立,任系副主任。在“文化大革命”期间,谢义炳无端遭受审查、批斗。在困难的条件下,他仍坚持对党的信念,认真学习经典著作,有可能时即从事科学研究工作。
18年,谢义炳被任命为北京大学地球物理系主任。
19年2月,他参加了在日内瓦召开的第一次世界气候大会后,接着率团到马德里参加世界气象教育大会,在会上他作了新中国气象教育和科学的报告。
1980年,当选为中国科学院地学部学部委员(院士)。
1981年,加入中国***。
1982年6月,他赴美国参加在内布拉斯加州立大学召开的华北平原和美国平原气候和农业对比考察讨论会。
1983年6月,率中国气象学会代表团回访瑞典。
1988年8月底,应邀参加在赫尔辛基召开的帕尔门纪念科学讨论会。
1995年8月24日,病逝于北京。
主要成就
科研成就
●科研综述
大尺度环流系统的研究
谢义炳还对大尺度环流系统进行了基础理论研究,在《稳定的与不稳定的斜压行星波》一文中,不是从定的平直西风气流出发,而是从实际的流场出发,引进空间不稳定性概念,探索行星波的时间稳定性,从而修改和发展了传统的斜压不稳定理论。
谢义炳在博士论文《北美冷涡个例研究》中提出的对流层冷性涡旋发展的概念模式,在国内外大气环流环流专著和教科书中得到广泛引用。20世纪50年代,他发现了东亚锋区与急流的多重结构,明确了东亚高空副热带急流的存在以及和极锋急流的相互作用。这一工作稍后被日本气象工作者所证实,双急流及其相互作用仍是大气环流研究的重要课题。
东亚降水天气系统与湿斜压天气动力学的研究
1954年,长江流域遭受特大洪水后,谢义炳接受了中央气象局的“中国夏季降水问题研究课题”,对冷暖锋、低涡、梅雨和季风等进行了大量的分析,提出了这些系统的概念模式,并被以后的研究所证实。
15年,河南发生特大暴雨。之后,他组织了北方十三省、市、自治区气象局开展了大规模暴雨天气预报的研究;又提出了湿斜压概念和湿斜压天气动力学的系统理论,这一理论强调了凝结潜热释放的反馈对大气运动的重要性,由此计算出的斜压不稳定波长与实际分析结果一致。他在开放系统中引入的“湿有效位能”概念被发展成为一种新的暴雨诊断和预报方法,使20世纪80年代的中国北方夏季降水预报准确率有了显著提高。
热带大气环流与台风的研究
在研究中国降水问题时,谢义炳特别强调热带环流的重要性。20世纪60年代初,他发现东亚季风有一个月左右的振荡,这种低频振荡后被国际上的研究所证实并成为研究的重点。20世纪70年代,他提出中国大范围暴雨绝大多数发生在中低纬度环流相互作用过程中,给出相互作用的概念模式,并在北方暴雨业务预报实践中获得成功。
在台风的研究方面,20世纪50年代,他得到了台风移动的控制方程组,给台风移动的引导气流原理给出了理论依据。60年代,他发现西太平洋绝大多数台风发生在赤道幅合带上,并提出台风形成的赤道幅合带上切变不稳定理论,丰富了台风形成的动力学理论。
●主要论著
●科研获奖
1985由于其成果在天气预报中取得重大的社会经济效益获得国家科技进步奖二等奖,18年以其热带天气学和动力学的一系列研究成果获得全国科学大会奖。
人才培养
谢义炳在20世纪50年代亲自编写了“天气学”、“中长期天气预报”、“大气环流”等课程的讲义,他重视对学生研究工作能力的培养,坚持理论联系实际的作风。在教学实践中,他十分重视“气象观测”课程的建设,培养、组建了较强大的气象观测教学队伍。他的学生中,有中国科学院院士、中国工程院院士,全国劳动模范,“五一”劳动奖章获得者,以及气象业务部门、科研单位和高校院系的领导和业务骨干。学生有气象学家雷雨顺。
荣誉表彰
1988获芬兰的帕尔门(E.Palmen)国际奖,1990年国家教委向他颁发了从事教育和科研40年以上的“荣誉证书”。
1980年当选为中国科学院学部委员(院士)。
社会任职
谢义炳历任中国气象学会副理事长、名誉理事长、《气象学报》主编。1982年,当选为英国气象学会荣誉会员。谢义炳是院学位委员会评议组成员,曾兼地学组组长,国家科学基金会评审组成员,大气科学组组长,曾兼地球科学组组长。
人物评价
谢义炳先生作为一名卓越的气象学家和教育家为中国和世界气象科学事业所作出的开拓性贡献。他一生各个历史阶段所取得的杰出成就和表现出来的高风亮节将永为世范、启迪后学。(北京大学常务副校长林建华和中国气象局宇如聪副局长评)
感谢以先生为典范的气象学教育工作者的辛勤耕耘为国家气象科学事业输送了源源不断的人才。(中国科学院大气物理研究所所长王会军评)
谢义炳深受中国优良传统文化的影响,生活简朴,工作努力,民族自尊心强烈。他还接受了西方勇于探索,不迷信权威的进取精神,在极端孤立的情况下,坚持原则,实事求是,受挫不馁。他在改革开放时期,积极对外进行科技与人员的友好交流,为推进中国科技进步做出了积极贡献。(九三学社评)
后世纪念
2007年9月22日,谢义炳90周年诞辰纪念会暨铜像落成仪式于在北京大学举行。北京大学大气科学系还组织出版了《江河万古颂-谢义气炳院士纪念文集》,《气象学报》也专门出版了纪念专刊。
中文
中文——作为一个民族的母语,中文是当今世界流行语言体系里最大的一个分支。始创于公元前黄帝在世的时代,成就于公元二十世纪后期。是一种发源最早而成熟最晚的一个语言体系。是东方文明的一种标志与成果,是人类用来精确命名与定义万事万物的一种重要信息载体。体系包括几千个常用单字和上万个字词成语,是文明社会不可缺少的重要组成。 自一名京人编辑
从20世纪50年代初机器翻译课题被提出算起,自然语言处理(NLP)的研发历史至少也有50年了。90年代初,NLP的研究目标开始从小规模受限语言处理走向大规模真实文本处理。把这个新目标正式列入大会主题的是1990年在赫尔辛基举行的“第13届国际计算语言学大会”。那些只有几百个词条和数十条语法规则的受限语言分析系统,通常被业内人士戏称为“玩具”,不可能有什么实用价值。、企业和广大计算机用户期盼的是像汉字输入、语音听写机、文-语转换(TTS)、搜索引擎、信息抽取(IE)、信息安全和机器翻译(MT)那样的、有能力处理大规模真实文本的实用化系统。
正是基于对这个里程碑式转折的关注,笔者在1993年就列举了四种大规模真实文本处理的应用前景:新一代信息检索系统;按客户要求编辑的报纸;信息抽取,即把非结构化的文本转化为结构化的信息库;大规模语料库的自动标注。值得庆幸的是,今天所有这四个方向都有了实用化或商品化的成果。
尽管全世界都把大规模真实文本处理看做是NLP的一个战略目标,但这不等于说受限领域的机器翻译、语音对话、电话翻译和其他一些基于深层理解的自然语言分析技术或理论研究,就不应当再搞了。目标和任务的多样化是学术界繁荣昌盛的一个标志。问题是要考虑清楚NLP的主战场在哪里,我们的主力应当部署在哪里。
中文难办吗?
谈到中文信息处理所面临的重大应用课题,如企业和广大计算机用户所期盼的汉字输入、语音识别等,大家似乎并没有什么分歧。但是当讨论深入到实现这些课题的方法或技术路线时,分歧马上就泾渭分明了。第一种意见认为,中文信息处理的本质是汉语理解,也就是要对汉语真实文本实施句法-语义分析。持这种意见的学者主张,以往在中文信息处理中使用的概率统计方法已经走到了尽头,为了在理解或语言层面上解决中文信息处理问题,就必须另辟蹊径,这条蹊径便是语义学。据说这是因为汉语不同于西方语言,汉语的句法相当灵活,汉语本质上是一种意合语言等。
与上述意见相对立的观点是:前面提到的绝大多数应用系统(MT除外)其实都是在没有句法-语义分析的情况下实现的,因此谈不上“理解”。 如果一定要说“理解”,那么只是用图灵实验来证实的所谓“理解”。
上述双方争论的焦点是方法,但目标和方法通常是密不可分的。如果我们同意把大规模真实文本处理作为NLP的战略目标,那么实现这一目标的理论和方法也必然要跟着变化。无独有偶,1992年在蒙特利尔召开的“第四届机器翻译的理论和方法国际会议(TMI-92)”宣布大会的主题是“机器翻译中的经验主义和理性主义方法”。这就是公开承认,在传统的基于语言学和人工智能方法(即理性主义)的NLP技术以外,还有一种基于语料库和统计语言模型的新方法(即经验主义)正在迅速崛起。
NLP的战略目标和相应的语料库方法都是从国际学术舞台的大视野中获得的,中文信息处理自然也不例外。那种认为中文文本处理特别困难,以至要另辟蹊径的观点,缺少有说服力的事实根据。拿信息检索(IR)来说,它的任务是从一个大规模的文档库中寻找与用户的查询相关的文档。怎样表示文档和查询的内容,以及如何度量文档和查询之间的相关程度,就成为IR技术需要解决的两个基本问题。召回率和精确率则是评价一个IR系统的两个主要指标。由于文档和查询都是用自然语言表述的,这个任务可以用来说明中文和西方语言所面临的问题和所用的方法其实是十分相似的。一般来说,各文种的IR系统都用文档和查询中的词频(tf)和倒文档频率(idf)来表示文档和查询的内容,所以本质上是一种统计方法。
世界文本检索大会TREC (://trec.nist.gov/) 的最大特点是通过提供大规模训练语料和统一评测方法来支持IR技术的研发。研究团队必须通过大会的统一评测并名列前茅,才能获准到会上来做报告。1992年起TREC每年举办一届大会,并得到美国国防部(DARPA)和国家标准技术局(NIST)的资助。会议对包括中文、日文在内的多文种文档库开展了IR评测。结果表明,中文IR并没有因为存在分词问题就比其他文种做得差,而且迄今没有证据表明各语种的NLP,包括基于概念的或基于句法-语义分析的技术,能明显提高IR系统的性能。
什么是主流技术?
语料库方法和统计语言模型不但没有过时,而且在可比的统一评测中被证明是当前各国语言信息处理的一种主流技术。
1. N元模型
设wi是文本中的任意一个词,如果已知它在该文本中的前两个词 wi-2w-1,便可以用条件概率P(wi|wi-2w-1)来预测wi出现的概率。这就是统计语言模型的概念。一般来说,如果用变量W代表文本中一个任意的词序列,它由顺序排列的n个词组成,即W=w1w2...wn,则统计语言模型就是该词序列W在文本中出现的概率P(W)。利用概率的乘积公式,P(W)可展开为:
P(W) = P(w1)P(w2|w1)P(w3| w1 w2)...P(wn|w1 w2...wn-1)
不难看出,为了预测词wn的出现概率,必须知道它前面所有词的出现概率。从计算上来看,这种方法太复杂了。如果任意一个词wi的出现概率只同它前面的两个词有关,问题就可以得到极大的简化。 这时的语言模型叫做三元模型 (tri-gram):
P(W)≈P(w1)P(w2|w1)∏i(i=3,...,nP(wi|wi-2w-1)
符号∏i i=3,...,n P(...) 表示概率的连乘。一般来说,N元模型就是设当前词的出现概率只同它前面的N-1个词有关。重要的是这些概率参数都是可以通过大规模语料库来计算的。比如三元概率有
P(wi|wi-2wi-1) ≈ count(wi-2wi-1wi) /count(wi-2wi-1)
式中count(...) 表示一个特定词序列在整个语料库中出现的累计次数。
统计语言模型有点像天气预报中使用的概率方法,用来估计概率参数的大规模语料库好比是一个地区历年积累起来的气象记录。而用三元模型来做天气预报,就好比是根据前两天的天气情况来预测今天的天气。天气预报当然不可能百分之百准确,但是我们大概不会因此就全盘否定这种实用的概率方法吧。
2. 语音识别
语音识别作为计算机汉字输入的另一种方式越来越受到业内人士的青睐。所谓听写机就是语音识别的一种商品。那么当前商品化的听写机用的是什么技术呢?
其实,语音识别任务可视为对以下条件概率极大值的计算问题:
W*= argmaxW P(W|speech signal)
= argmaxW P(speech signal|W) P(W) / P(speech signal)
= argmaxW P(speech signal|W) P(W)
式中数学符号argmaxW 表示对不同的候选词序列W计算条件概率P(W|speech signal)的值,从而使W*成为条件概率值最大的词序列。它也就是当前输入语音信号speech signal所对应的输出词串了。
公式第二行是利用贝叶斯定律转写的结果,因为条件概率P(speech signal|W)比较容易估值。公式的分母P(speech signa ) 对给定的语音信号是一个常数,不影响极大值的计算,故可以从公式中删除。在公式第三行所示的结果中,P(W)叫做统计语言模型;P(speech signal|W) 叫做声学模型。
据调查,目前市场上中文和英文的听写机产品都是用词的三元模型实现的, 几乎完全不用句法-语义分析手段。这说明不同语言的产品技术往往是相通的。没有证据表明,中、英两种语言的听写机在性能指标上有显著的差异。所以那种断言中文信息处理一定比西方语言困难,实现中文信息处理必须另辟蹊径的说法,其实是站不住脚的。
三元模型(或一般的N元模型)只利用了语言的表层信息(或知识),即符号(字、词、词性标记等)序列的同现信息。谁也没有说它是十全十美的。在这一领域中,下一个研究目标应当是结构化对象(如句法树或语义框架)的统计模型。当然能做到语言理解是了不起的成果,它肯定会比目前这种统计语言模型强得多,这是不争的事实。问题是目前国内外还没有哪一种语言的句法-语义分析系统可以胜任大规模真实文本处理的重任。因此,对于世界各国的语言来说,当前的主流技术仍是语料库方法和统计语言模型。
3. 词性标注
至少像短语结构文法这样一类的语法规则是建立在词类基础上的。无怪乎语言学界有句行话说,没有词类就没法讲语法了。所以在自然语言的句法分析过程中,大概都有一个词性标注的阶段。不难理解,汉语的自动分词和词性标注的精确率,将直接影响到后续的句法分析结果。据观察,在汉语句法分析结果中,有高达60%的分析错误来源于分词和词性标注的错误。
在英语的词库中约 14% 的词形(type)具有不只一个词性,而在一个语料库中,总词次数(tockens)中约 30% 是兼类词。从这个统计数字中可以估计出词性标注任务的难度。历史上曾经先后出现过两个方法迥异的英语词性标注系统:TGIT系统拥有3000条上下文相关规则, 而CLAWS系统完全用概率统计方法。两个系统各自完成了100万词次的英语语料库的自动词性标注任务。评则结果(见下表)表明,用概率统计方法的CLAWS系统的标注精度达到96%,比TGIT系统提高了近20个百分点。经过改进的CLAWS系统日后承担了英国国家语料库BNC一亿条英语词的词性标注任务。
具体来说,CLAWS系统用的是词类标记的二元模型。如果令 C = c1...cn 和 W = w1...wn分别代表词类标记序列和词序列,则词性标注任务可视为在已知词序列W的情况下,计算如下条件概率极大值的问题:
C*= argmaxC P(C|W)
= argmaxC P(W|C)P(C) / P(W)
≈ argmaxC ∏i i=1,...,nP(wi|ci)P(ci|ci-1 )
P(C|W) 表示:已知输入词序列W的情况下,出现词类标记序列C的条件概率。数学符号argmaxC 表示通过考察不同的候选词类标记序列C, 来寻找使条件概率P(C|W) 取最大值的那个词序列W*。后者应当就是对W的词性标注结果。
公式第二行是利用贝叶斯定律转写的结果,由于分母P(W) 对给定的W是一个常数,不影响极大值的计算,故可以从公式中删除。接着对公式进行近似。首先,引入独立性设,认为词序列中的任意一个词wi的出现概率近似,只同当前词的词性标记ci有关,而与周围(上下文)的词类标记无关。即词汇概率
P(W|C) ≈ ∏i i=1,...,nP(wi|ci )
其次,用二元设,即近似认为任意词类标记 ci的出现概率只同它紧邻的前一个词类标记ci-1有关。因此有:
P(C) ≈∏i i=,...,n P(ci|ci-1)
P(ci|ci-1) 是词类标记的转移概率,也叫做二元模型。
上述这两个概率参数也都可以通过带词性标记的语料库来分别估计:
P(wi|ci) ≈ count(wi,ci) / count(ci)
P(ci|ci-1) ≈ count(ci-1ci) / count(ci-1)
顺便指出,国内外学者用词类标记的二元或三元模型实现的中、英文词性自动标注都达到了约95%的标注精确率。
评测为什么是惟一的评判标准
有评测才会有鉴别。评判一种方法优劣的惟一标准是相互可比的评测,而不是设计人员自己设计的“自评”,更不是人们的直觉或某个人的“远见”。近年来,在语言信息处理领域,通过评测来推动科学技术进步的范例很多。国家“863”智能计算机专家组曾对语音识别、汉字(印刷体和手写体)识别、文本自动分词、词性自动标注、自动文摘和机器翻译译文质量等课题进行过多次有统一测试数据和统一计分方法的全国性评测,对促进这些领域的技术进步发挥了非常积极的作用。
在国际上,美国国防部先后发起的TIPSTER 和 TIDES两个和语言信息处理相关的,就被称为“评测驱动的”。它们在信息检索(TREC)、信息抽取(MUC)、命名实体识别(MET-2)等研究课题上,既提供大规模的训练语料和测试语料,又提供统一的计分方法和评测软件,以保证每个研究小组都能在一种公平、公开的条件下进行研究方法的探讨,推动科学技术的进步。TREC、MUC和MET-2等会议所组织的多文种评比活动也有力地说明,其他语言用并证明有效的方法,对中文也一样适用,不同文种应用系统的性能指标大体相当。固然,每种语言都有它自己的个性,然而这些个性不应当被用来否定语言的共性,并在事实不足的情况下做出错误的判断。
为了推动中文信息处理的发展,让我们拿起评测这个武器,扎扎实实地研究其适用技术,不要再想当然了。建议科研主管部门在制定项目时,至少要在一个项目的总经费中拿出10%左右的拨款用于资助该项目的评测。没有统一评测的研究成果,终究不是完全可信的