当前位置：文档库 › 基于链接时序分类的日语语音识别

基于链接时序分类的日语语音识别

小型微型计算机系统Journal of Chinese Computer Systems

2018年10月第10期Vol.39No.102018

收稿日期:2017-12-12 收修改稿日期:2018-02-01 基金项目:国家重点研发计划专项项目(2016YFB 1001303)资助. 作者简介:孙健,

男,1995年生,硕士研究生,研究方向为语音识别;郭武,男,1973年生,博士,副教授,研究方向为语音信号处理.

基于链接时序分类的日语语音识别

孙健,郭武

(中国科学技术大学语音及语言信息处理国家工程实验室,合肥230027)E-mail :sjian 17@https://www.wendangku.net/doc/1f871660.html,

摘要:目前,端到端的语音识别系统因其简洁性和高效性成为大规模连续语音识别的发展趋势.本文将基于链接时序分类的端到端技术应用到日语语音识别上,考虑到日语中平假名二片假名和日语汉字多种书写形式的特性,通过在日语数据集上的实验,探讨了不同建模单元对识别性能的影响;进一步将音素信息应用到模型的初始网络训练中,改善语音识别系统性能,最终效果优于基于隐马尔可夫模型和双向长短时记忆网络的主流语音识别系统.关键词:语音识别;日语;链接时序分类;端到端

中图分类号:TP 183 文献标识码:A 文章编号:1000-1220(2018)10-2129-05

Towards Connectionist Temporal Classification Speech Recognition System for Japanese

SUN Jian ,GUO Wu

(University of Science and Technology of China ,National Engineering Laboratory for Speech and Language Information Processing ,Hefei 230027,China )

Abstract :The end-to-end framework has become the state-of-the-art method in large vocabulary continuous speech recognition (LVC-SR )because of its simplicity and efficiency.In this paper ,the end-to-end technology based on Connectionist Temporal Classification (CTC )is applied to Japanese speech recognition.Considering the characteristic of various written forms among hiragana ,katakana and kanji in Japanese ,we discuss the impact of different modeling units on recognition performance through experiments on Japanese dataset.Then we combine phoneme information into the acoustic model to improve the performance.Experiments demonstrate the ef-fectiveness of the proposed methods ,which can achieve better performance than the mainstream speech recognition system based on Hidden Markov Model and Bi-directional long-short memory network.

Key words :automatic speech recognition ;Japanese ;end-to-end ;connectionist temporal classification

1 引言

随着深度学习的快速发展,神经网络取代混合高斯模型[1](Gaussian Mixture Model ,GMM ),并与隐马尔可夫模

型

[2]

(Hidden Markov Model ,HMM )相结合,对状态进行建

模,使得大规模连续语音识别的性能获得了显著的提高.近年来,循环神经网络(Recurrent Neural Networks ,RNN )及其变体--长短时记忆网络

[3]

(Long Short-Term Memory ,LSTM )成

功应用于语音识别,解决了普通的深度神经网络

[4]

(Deep

Neural Network ,DNN )无法对语音信号时序特性建模的缺点,语音识别性能进一步提升.但是以HMM 为框架的识别算

法对语言学知识的要求较高,包括上下文相关音素状态绑定,发音字典的准备等等,开发难度较大.另外训练过程中,需要通过强制对齐,获得帧级标注,任务复杂程度较高,且忽略了语音序列内在特性,无法全局优化整个语音序列.

为解决上述问题,A.Graves 等人提出链接时序分类技术

[5,6]

(Connectionist Temporal Classification ,CTC )和端到端

的识别系统,解决了输入和输出标签对应关系未知情况下的序列分类问题,全局优化语音序列.与之前提到的混合模型不同,CTC 不需要隐马尔可夫模型,仅需要单独的神经网络即可完成整个语音识别任务.在基于CTC 的端到端系统中,将语音序列直接映射到标注序列所在的空间,消减了发音词典,

语言模型等成分,极大地简化了语音识别的步骤[7,8].

本文探讨了日语语音识别的相关问题.日语是日本国的官方语言,日语中主要使用的文字包括平假名(例如:"あ"),片假名(例如:"テ"),和日语汉字(例如:"日本语").平假名包含了日语中所有的发音[9],片假名用于书写外来词,拟声词,拟态词和一部分动二植物的名称,日语汉字用于表示实物的名称或动作.日语中一般混合使用三种字体,其中平假名和片假名一一对应,由于假名同音歧义的现象比较严重,因此日语中汉字使用十分广泛,常用汉字有2000多个,而且所有的汉字均可通过假名表达.虽然日语中的发音单元并不多,但书写单元种类繁多,表现形式复杂,因此以CTC 技术为核心的端到端语音识别系统中,选择合适的建模单元能够对识别性能进一步优化.本文首先采用字型(gra-phoneme )即全部的假名和常用汉字共2795个单元进行建模,实验结果与双向长短时记忆网络(BiLSTM-HMM )系统差距较大.进一步,在已经知道日语语音学知识的情况下,将其结合到端到端识别系统中.选择以音素为建模单元训练任务,系统性能得到提升.

在进行CTC 的实验中,我们发现字型作为建模单元的神经网络输出的后验概率比较尖锐,随机初始化的网络容易陷入局部最优解,因此本文把以音素为建模单元的训练模型作为初始网络以提升前者模型的鲁棒性,使得识别性能大幅提高,此外我们将传统的语言模型与CTC 相结合,系统效果获

万方数据