タグ付きの投稿音声および動画ファイルを人間レベルの精度で自動的に文字起こしする.