最先端音声合成技術を活用したAI音声合成サービスを開始

  • 音声認識・音声合成

実績概要


プロジェクト期間
2021/7/14

弊社の音声関連技術をもとに、急激な需要拡大が見込まれるコンテンツの音声化に対応すべく、オトバンク様との協業により独自のAI音声合成サービス「カタリテ」を開発。本サービスでは、弊社が開発した自然な発音を再現するアクセント推定技術「tdmelodic」を初めて実用化いたしました。また、『日経電子版』と連携して、活字コンテンツの音声化に関する実証実験を行っています。

技術について


独自の音声合成技術に基づく音声合成プラットフォーム「PKSHA Phonetics(フォネティクス)」を採用、さらにオトバンクのオーディオブックディレクターがチューニングを実施することで、より自然で聴き心地のいい音声を実現しています。

「PKSHA Phonetics(フォネティクス)」独自のアクセント推定技術「tdmelodic」、独自の波形特徴量生成技術「DCTTS」等により、一般的な音声合成ソフトウエアでは難しいアクセントの制御が可能。「tdmelodic」を導入したサービスの実用化は、今回が初の取り組みです。
波形特徴量生成技術「DCTTS」やアクセント推定技術「tdmelodic」については、音声・音響領域のトップ学会の一つであるICASSPにて発表しています。

オトバンクが制作したオーディオブックをデータベースとし、抑揚や音色も人が聞き取りやすく長時間聞いても疲れにくいようにチューニングを行っています。

語り手(朗読者)には、アニメーション作品や報道番組のナレーションなど幅広い作品で活躍する人気声優の浅野真澄さんを起用。落ち着いた安定感のある声で音声化されます。

担当メンバー

  • 橘 秀幸HIDEYUKI
    Tachibana

    東京大学工学部計数工学科卒。東京大学大学院情報理工学研究科博士課程修了。博士(情報理工学)。明治大学研究員を経て、PKSHA Technologyに参画。主に音声処理、言語処理、信号処理の研究開発に従事。

  • 稲原 宗能MUNEYOSHI
    Inahara

    東京大学工学部電子情報工学科卒業。在学中はゲームAI及び自然言語処理技術を研究。卒業後は日本IBMへ入社。東京システム開発研究所にて主にWatsonや深層学習によるシステムの研究開発及びソリューション事業を担当。PKSHA Technologyへ参画後は音声対話プロダクトや、因果関係認識、感情認識、言語モデル、音声合成など多数の製品・モジュールの研究開発に従事。