AWSで文字起こし

文字起こしって、たまにやるんですけど、結構時間かかるんですよね。
今どきの音声認識でどこまでいけるのか?
AWSのAmazon Trascribeという自動音声認識サービスが日本語に対応してるんで、試してみました。

■やり方

1. S3に音声データを保存

AWS管理コンソール利用

  • S3の適当なバケットに音声ファイルをアップロード

2. Transcribe設定

AWS管理コンソール利用

  • Amazon Transcribe画面で「Create transcription job」

  • STEP1 Spacify job details
    <Job settings>
    ・Name:適当
    ・Language:Japanese
    <Input Data>
    ・Input file location on S3:アップロードした音声データを選択
    <Output Data>
    ・Service managed S3 backet

  • STEP2 Configure job - optional
    <Audio settings>
    ・Audio identification:OFF
    ・Alternative result:OFF
    <Content removal>
    ・Vocabulary filtering:OFF
    <Customization>
    ・Custom vocablary:OFF

  • Createボタンを押すと文字認識開始

3. 結果取得

job一覧でStatusがcompleteになったら出来上がり。
そのjobを開いて「Download full transcript」ボタンを押すとjsonファイルがダウンロードされます。
テキストエディタで開くことができます。
json形式なので、これをもとにしていろんな処理するプログラムも作れるんでしょうね、きっと。

■結果

10分弱の音声なのに1分30秒で処理が終わってました。
(。。。どういう仕組みなんだろ?)
結果には、句読点なしで、どわーと文字が並んでいるんですが、なかなかの認識率。
ちゃんと測ってませんけど、8割くらいは認識できてる感じです。
この出力をベースにして、改めて音声を聞きながら直していく、という作業になりますが、
ゼロから書き起こすよりも格段に効率いいです。

■お値段

お値段は 音声1秒あたり0.0004ドル
10分だと、600秒なので、0.24ドル
1ドル110円換算で26.4円。消費税入ると30円くらいでしょうか。
ゼロから文字起こしする手間を考えると、割と魅力的。

新規作成:2020/05/09
最終更新:2020/05/09