音声認識AIの教師データ「audioコーパス データセット」、『職業面談』のデータセットをリリース

audioコーパス株式会社は、2024年8月22日より新たな音声認識AIの教師データ「audioコーパス データセット」の会話区分『職業面談』の先行販売を開始すると発表した。これにより、同社のデータセット提供時間数は150時間を超え、AIに学習させるデータをゼロから作成する手間が省け、必要な会話区分に沿ったAI開発をスピーディーに進めることができるようになる。

audioコーパス データセットは、音声とテキストをセットにした発話データで、AI学習の要件に合わせ、既にタグなどを付与した整形データのため、そのまま開発に利用できるデータ構造となっている。音声データはwavファイル、テキストデータはcsv、txt、eafファイルで提供される。

音声データは、営業商談、コールセンター、対談、面談などの会話区分によるリアルな会話を収録し、一対一の会話においてRとLでチャンネルを分けたステレオ収録となっている。また、著作権や個人情報などの人の声に関する権利関係を整理している。

テキストデータは、相づちやどもりなども忠実にすべて書き起こし、フィラー、言い間違いなどの抽出に6つのタグを付与している。発話ごとに区間を区切り、細かく発話を利用・分析することが可能だ。また、「日本語話し言葉コーパス」(CSJ)の仕様に準じたタグ付与と、「記者ハンドブック」(共同通信社発刊)の仕様に準じた日本語表記を採用し、表記ルールを徹底している。

発話データは権利フリーのものが市場にほとんど存在しないため、システム開発において発話データが必要になった際は、音声データを自前で調達し、一から書き起こさなければならない。また、発話データを学習させる際は「表記のゆらぎ」など気にかけなければいけないことも多く、品質を高めるためには手間と時間がかかる。そんな課題を解決するため、発話データの製作所として、ニーズを調査し、必要なデータセットを販売しているのがaudioコーパス株式会社だ。

今回リリースする『面談』のデータセットは、自然発話が多く、汎用性も高くて扱いやすいデータとなっている。音声認識AIシステムを開発していて学習用データが必要な人や、システムの提供先に変化が生じ別の会話カテゴリが必要になった人、人の声のデータを探している人、コーパスデータを探している人、自然発話を分析・研究している人におすすめだ。