美国宾大语言数据联盟科研副主任袁家宏为外国语学院师生做讲座[图]

10.05.2017  13:32

5月3日至7日,美国宾夕法尼亚大学语言数据联盟(Linguistic Data Consortium,简称LDC)科研副主任袁家宏博士为外国语学院师生开设有关语料库的系列讲座。外国语学院院长胡开宝、跨语言处理与语言认知基地副主任丁红卫、跨语言处理与语言认知基地部分成员及同学参加了此次报告。报告由丁红卫主持。 

为期三天的专题讲座中,袁家宏博士向学院师生介绍了美国宾大LDC语料库资源,并重点介绍了语音研究领域引用率非常高的TIMIT语音数据库的开发、建设与运营情况。同时袁博士还介绍了语料库研究的工具和方法,主要包括Python编程语言基础和Python在语料库研究中的应用,机器学习在语料库研究中的应用(以R为例),语音强制对齐技术和语音强制对齐软件P2FA (Penn Phonetics Forced Aligner)等。袁博士以实际语料为例,通过具体实验讲解和演示,讲授如何运用编程语言和机器学习的方法对语言数据进行处理和分析。 

胡开宝也介绍了学院开发的语料库。学院目前已经建成库容量3700万字词的现当代中国文学作品汉英平行语料库、库容量4000万字词的专门英汉/汉英平行语料库、莎士比亚戏剧英汉平行语料库、记者招待会汉英口译语料库,语料库研究方面已获得国家专利2项,著作权4项。同时,胡院长希望与LDC广泛开展合作,共同开发用于学术研究和产业应用的语料库。 

参加此次讲座的师生,也根据自己的研究方向,结合语料库研究方法,与袁家宏博士进行了积极交流。 

语言数据联盟LDC (Linguistic Data Consortium) 于1992年创办,由美国宾夕法尼亚大学主办,拥有众多的优质语言资源。