Microsoft Bing API Speech to Text で音声ファイルをテキスト化

音声ファイルをテキスト化する Microsoft Bing Speech to Text の試用をしてみました。STT にはクライアントライブラリとREST API が提供されています。お手軽な REST API の方を試してみます。シェルスクリプトのサンプルを元にPHPで書いてみました。

<?php
//
//  Microsoft Bing API Speech to Text
//

define("BING_TOKEN_URL", "https://api.cognitive.microsoft.com/sts/v1.0/issueToken");
define("BING_BASE_URL", "https://speech.platform.bing.com/speech/recognition");
define("BING_SERVICE", "/cognitiveservices");
define("BING_VERSION", "/v1");
define("BING_SUBSCRIPTION_KEY", "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx");

define("BING_LANG", "ja-JP");
define("BING_LOCALE", "ja-JP");
define("AUDIO_TYPE", "audio/wav");

/*
 * Recognition modes:
 * interactive: a user makes short requests and expects the application
 *              to perform an action in response.
 * conversation: users are engaged in a human-to-human conversation.
 *
 * dictation: users recite longer utterances to the application
 *            for further processing.
 */
define("RECOGNITION_MODE", "conversation");
/*
 * Output format:
 * simple: A simplified phrase result containing the recognition status 
 *         and the recognized text in display form.
 * detailed: A recognition status and N-best list of phrase results
 *           where each phrase result contains all four recognition forms
 *           and a confidence score.
 */
define("OUTPUT_FORMAT", "simple");


function Get_Token($url, $subscriptionKey) {
    $ch = curl_init();
    curl_setopt($ch, CURLOPT_POST, 1);
    curl_setopt($ch, CURLOPT_HEADER, 0);
    curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, 0);
    curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
    curl_setopt($ch, CURLOPT_BINARYTRANSFER, 1);
    curl_setopt($ch, CURLOPT_URL, $url);
    curl_setopt($ch, CURLOPT_HTTPHEADER, array(
        "Content-type: application/x-www-form-urlencoded",
        "Content-Length: 0",
        "Ocp-Apim-Subscription-Key: {$subscriptionKey}"
    ));
    $token = @curl_exec($ch);
    return $token;
}

function Speech_to_Text($url, $token, $audioFile, $audioType) {
    $size = filesize($audioFile);
    $data = file_get_contents($audioFile);
    $ch = curl_init();
    curl_setopt($ch, CURLOPT_POST, 1);
    curl_setopt($ch, CURLOPT_HEADER, 0);
    curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, 0);
    curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
    curl_setopt($ch, CURLOPT_BINARYTRANSFER, 1);
    curl_setopt($ch, CURLOPT_URL, $url);
    curl_setopt($ch, CURLOPT_HTTPHEADER, array(
        "Transfer-Encoding: chunked",
        "Content-Type: {$audioType}; codec=\"audio/pcm\"; samplerate=16000",
        "Authorization: Bearer {$token}"
    ));
    curl_setopt($ch, CURLOPT_POSTFIELDS, $data);
    curl_setopt($ch, CURLOPT_INFILESIZE, $size);
    $res = @curl_exec($ch);
    return $res;
}

// Main

if (empty($argv[1])) {
	echo "Please, specify a file to transcribe.".PHP_EOL;
	exit;
}

$filename = trim($argv[1]);
if (!file_exists($filename)) {
	echo "The file specified doesn't exist.".PHP_EOL;
	exit;
}

$token = Get_Token(BING_TOKEN_URL, BING_SUBSCRIPTION_KEY);

if (!empty($token)) {
	$url = BING_BASE_URL."/".RECOGNITION_MODE;
	$url .= BING_SERVICE.BING_VERSION;
	$url .= "?language=".BING_LANG;
	$url .= "&locale=".BING_LOCALE;
	$url .= "&format=".OUTPUT_FORMAT;
	$url .= "&requestid=rest_sample_request_id";
	$res = Speech_to_Text($url, $token, $filename, AUDIO_TYPE);
	var_dump($res);
} else {
	echo "Failed to get token.".PHP_EOL;
}
?>

Bing Speech to Text REST API では 15秒以下という制限があるため、音声の始まりの部分しかテキスト化できませんが、ちゃんと日本語テキストとして出力してくれています。いくつか試してみました。

出力結果:

outbound_only.wav:「お電話ありがとうございます。発信専用ダイアルのためおつなぎすることが出来ません・・・」

# php sample.php outbound_only.wav 
string(125) "{"RecognitionStatus":"Success","DisplayText":"お電話ありがとうございます","Offset":19100000,"Duration":19100000}"
busy.wav: 「ただいま電話が大変混み合っております。・・・」

# php sample.php busy.wav 
string(141) "{"RecognitionStatus":"Success","DisplayText":"ただいま電話 ga 大変混み合っております","Offset":12500000,"Duration":34500000}"
outoofservice.wav: 「ただいまのお時間は受付を終了しております。・・・」

# php sample.php outofservice.wav 
string(146) "{"RecognitionStatus":"Success","DisplayText":"ただいまのお時間は受付を終了しております","Offset":16600000,"Duration":40700000}"

PHPファイルエンコード変換

ファイルのエンコードを UTF-8 > Shift-JIS へ変換して、別ファイルへ出力するサンプルです。

ファイルの内容をすべて読み込んでエンコード変換する方法:

$srcfile = "/tmp/test.csv";
// 一時ファイルディレクトリにファイルを作成します
$dstfile = tempnam(sys_get_temp_dir(), 'prefix');

$contents = file_get_contents($srcfile);
$contents = mb_convert_encoding($contents, "Shift-JIS", "UTF-8");

$fp = fopen($dstfile , "w");

if ($fp) {
    fwrite($fp, $contents);
    fclose($fp);
}

上記方法だとファイルの内容が多いとメモリの使用上限に達することがあったので
少し改良した版:

$srcfile = "/tmp/test.csv";
// 一時ファイルディレクトリにファイルを作成します
$dstfile = tempnam(sys_get_temp_dir(), 'prefix');

$fpsrc = fopen($srcfile , "r");
$fpdst = fopen($dstfile , "w");

if ($fpsrc && $fpdst) {
    while(($chunk = fgets($fpsrc)) !== false) {
        $chunk = mb_convert_encoding($chunk, "Shift-JIS", "UTF-8");
        fwrite($fpdst, $chunk);
    }
}
if ($fpsrc) {
    fclose($fpsrc);
}
if ($fpdst) {
    fclose($fpdst);
}

CPI レンタルサーバーでPHP/PDO MySql接続エラー

CPIレンタルサーバーにWebシステムを構築していてはまってしまった件なのですが、PHP で PDO を使って MySql へ接続すると以下のエラーが。。。

Can't connect to local MySQL server through socket '/tmp/mysql.sock' (2)

ローカルのサーバーでは出ていなかったので、Unixソケットも調べたが /tmp/mysql.sock で問題なし。

原因は、host=localhost で接続していたためでした。’localhost’ を ‘127.0.0.1’ に変更したら接続ができました。

Bootstrap 簡単インストール

Bootstrap はレスポンシブでモバイルを前提にしたWebプロジェクトを開発するためのHTML, CSS と Javascript のフレームワークです。(Bootstrap is the most popular HTML, CSS, and JS framework for developing responsive, mobile first projects on the web.)

Webプログラム開発はできてもデザインはちょっとという人にはもってこいのフレームワークです。

インストール
http://getbootstrap.com/getting-started/ から「Download Bootstrap」ボタンをクリックして、”bootstrap-3.3.5-dist.zip” をダウンロードします。

bootstrap フォルダとして展開します。

bootstrap
– css
– fonts
– js

以下は基本となるテンプレートです。jquery のCSS, JSと同様に、ダウンロードした bootstrap.min.css, bootstrap.min.js を読み込みます。 また、上の赤字の meta タグは先頭に記述する必要があります。

<!DOCTYPE HTML>
<html lang="ja">
<head>
    <meta charset="utf-8">
    <meta http-equiv="X-UA-Compatible" content="IE=edge">
    <meta name="viewport" content="width=device-width, initial-scale=1">
<!-- The above 3 meta tags *must* come first in the head; any other head content must come *after* these tags -->
    <meta http-equiv="Pragma" content="no-cache">
    <meta http-equiv="Cache-Control" content="no-cache">
    <meta name="Keywords" content="">
    <meta name="Description" content="">
    <link rel="icon" href="images/favicon.ico" type="image/x-icon" />
    <link rel="shortcut icon" href="images/favicon.ico" type="image/x-icon" />
<!-- Bootstrap -->
    <link href="lib/bootstrap/css/bootstrap.min.css" rel="stylesheet">
<!-- Bootstrap core JavaScript -->
    <script type="text/javascript" src="lib/jquery/jquery-1.11.2.min.js"></script>
    <script type="text/javascript" src="lib/bootstrap/js/bootstrap.min.js"></script>
<!-- Page title -->
    <title>Hello Bootstrap</title>
</head>

<body>
Hello world.
</body>
</html>

デモページはこちら