音響実験室-臨場感のある音響空間を目指して！

臨場感のある音響空間を作り出す方法

参考にできる方法・考え方は・・・【1】スピーカーマトリックス【2】ダイレクト/リフレクティング理論【3】人間の耳の学習能力、【4】音の空気吸収、などが挙げられます。

それぞれの考え方・方法を簡単にまとめて見ましょう。間違っているかもしれませんが？

【1】スピーカーマトリックス
スピーカーの結線だけで、L-R、又は、R-Lの音を出す方法です。そして、反射音はL-Rで近似できるという考え方でしょうか？スピーカーマトリックスの方法は様々なタイプが考案されています。

【2】ダイレクト/リフレクティング理論
コンサートホールでは反射音が89％で直接音は11％だということです。それで、反射音を積極的に作って臨場感を出すという考え方だと思います。ただ、スピーカーをいくつも持っているので、複数用いて反射音を作るなら、一つのスピーカーで実現するよりも簡単なはずですね。

【3】人間の耳の学習能力
人間の耳が臨場感をどのようにして聞き取っているか、人間の耳の学習能力も考えに入れる必要があります。臨場感を出すのに必ずしもディレイが必要な訳ではないようです。例えば、スピーカーマトリックスのL-Rの音を聴くと確かに遠くで鳴っているように錯覚します。

【4】音の空気吸収
音は空気により吸収されて高い周波数ほど減衰します。周波数の2乗に比例して減衰します。100m以下では通常無視しており、したがって、室内音響では無視するのが普通です。しかし、残響音は100m以上進みますから考慮する必要があるでしょう。

音響空間の一つの試み

決して新しいものではありません。多くの人が試みたスピーカーマトリックスの一つに過ぎませんね。しかし、自分の部屋と自分の耳に合うものを目指していろいろ調整して見ましょう。

スピーカーマトリックスでスピーカーをフロントに2組、リアに1組配置してみました。フロントのサラウンドスピーカーにはBOSEスピーカーの形をまねて角度をつけて見ました。リアの配置は部屋の都合で変則的になりましたが問題ないようです。ちなみに、用いたアンプは、スピーカーマトリックス用には、ONKYO C-711M LTD です。
フロントスピーカーL・Rには、デジタルアンプ（TA2020）を用いており、サラウンドの音量とは独立に調整できます。しかも、フロントは4種類のスピーカー（YAMAHA NS-10M、DENON SC-E535、Victor SX-F3、ONKYO D-202AX）を聴く音楽に合わせて瞬時に切り替えることができます。

※スピーカーの配置図。

※上記の配置図と対応するスピーカーマトリックスの回路図（フロントスピーカーは別のアンプを使用）。

※上記の配線ではスピーカーのインピーダンスと能率を踏まえて、適切な音量になるように考慮してあります。全体のインピーダンスはちょうど4オームで適切な値になります。
それぞれのスピーカーの音量は大体次の通りです。
　　リアサラウンドスピーカー USC-F07：　a(L-R)
　　フロントサラウンドスピーカー USC-A300:　a(L-R)×2/3
　　フロントサラウンドスピーカー S-01S：　a(L-R)×2/3
ここで、aはアンプのボリュームで適当に調整することを意味しています。まず、フロントスピーカーL・Rの音を消して、サラウンドだけを徐々に上げていき、聴き疲れしない程度に臨場感が出る大きさにします。それからフロントの音を聴きたい大きさにするとうまく行きます。a=1/2ぐらいがちょうど聴き易いようです。
※能率が+3dBで音量は2倍になります。インピーダンスが1/2になると電圧は1/2になります。それで、USC-A300とS-01Sの音量は大体同じになります。

※上記の実際の音響システム（フロント側）

①ONKYO 202AX　 ②VICTOR SX-F3
③YAMAHA NS-10M　 ④DENON SC-E535
⑤DENON USC-A300　 ⑥Kenwood S-01S
⑦DENON USC-F07（リアスピーカー）

スピーカーマトリックスの音（L-R）の意味は何か？

スピーカーマトリックスの（L-R）の音は何を意味しているのでしょうか。実に、これが難しい！

スピーカーマトリックスの（L-R）の音が何を意味しているかを少し考えて見ましょう。確かに、それは反射音のように聴こえますが。しかし、それを理解するには、ステレオ録音の方式を考慮に入れなければなりません。ステレオの録音方式には二つあるようです。
　　（１）左右の耳の位置にマイクを置いて録音する方式。
　　（２）たくさんのマイクを使って録音し、それをミキシングする方式。
（１）の方式は自然な音ですが、音の分離が難しくなるようです。一方、（２）の方式は自然な音ではなく造った音になります。それで、まったく不自然な音なのですが、しかし、クリアなボーカルや楽器音を再現できるという利点があり、現在、それが主流になっているようです。これを、ヘッドフォンで聴くなら、後は脳の情報処理能力にゆだねる以外にはありませんね。こういう事情ですから、スピーカーマトリックスの（L-R）の音が何を意味するかを考えても正解はないように思えます。結局、その意味は音楽の録音方法によりまったく異なってしまうのです。

L-Rの音については、いろいろな見解があるようです。それをいくつか挙げて見ましょう。
　A）環境音などと呼ばれることがあり、会場の雰囲気を多く含んだ音と考えられている。
　B）サラウンド技術によりさまざまな仕方で利用されている。
　C）擬似サラウンドとも呼ばれることがある。
　D）これがサラウンドに似ているのは、ステレオと同じく錯覚によるという人もいる。
　・・・・・
こうした意見を見ると、この音については、物理的な側面からだけではなく、人間の脳の認識の仕方からも考える必要がありそうですね。

さて、今度は、この音（L-R）についてはっきり言えることについて整理してみましょう。
　①中央に定位する音を除いた音である（左右同じ音は相殺される）。
　②しかし、L-Rによっても相殺されない直接音も多く含んでいる。
　③一方、残響音は位相がバラバラなので、L-Rにより相殺されずに、むしろ、増大する可能性がある。
　④実際に、残響音のように聴こえる。
　・・・・・
この音がどれほど残響音に近いかどうかは、録音の仕方にもかなり依存しているでしょう。たとえば、マイクを音源から離せば離すほど残響音の成分が多く含まれることになるので、L-Rによりそれが一層引き出されることになるでしょう（臨界距離と同じときに残響音は直接音と同じ分量になる）。加えて、中央に定位する音をミキシングにより加えているなら、L-Rによりその音は相殺されます。このような場合、サラウンドとして利用できる可能性は十分にあると考えられますね。

※L-Rにより残響音は増大するか？
ホワイトノイズを使った実験をして見ましょう。CDプレーヤーでホワイトノイズが録音されたCDを再生し、L-Rの音を聴いて見ると、打ち消し合って音は出ません。これは、左右まったく同じ音が出ているからです。それで、今度は2台のCDプレーヤーを使ってホワイトノイズを再生し、片方をLに、もう片方をRにして、L-Rを作ってみるとどうなるでしょうか。今度は、音が出ます。しかも、片方だけのときよりも大きな音が出るのです。さらに、これは、L+Rと同じ大きさの音なのです。これは、まったくバラバラな音（LとRが無相関な場合）はL-Rにより相殺されずにむしろ増大するということを示しています。
この考えの確かさを、屋内のノイズを収録したCDで試してみましょう。「音響効果大全集29」＜人の集まる屋内＞の14『劇場開演前のノイズ』を再生して、Lのみ、L-R、L+Rを比較してみました。この場合、予想通り、音量は、L ＜ L-R ≦ L+R の順になりました。

一方、無響室で録音した音楽の場合は、中央に定位する音は相殺され、音量は小さくなります（L-R ＜ L）。LとRの相関が強いほど、L-Rで相殺される確率が高くなるからでしょう。そして、大きな直接音が中央に定位する音（左右同じ音）となっている場合は特にそうなるでしょう。

下表はホワイトノイズやいくつかの演奏でL-Rの音量がどのように変化するかを示したものです。もちろん、演奏や録音により大きく異なりますから、これは大体の傾向にすぎません。

音源（CD）	L-Rの音量の傾向	備考
ホワイトノイズ	L-R = 0、L+R = 2L	左右同じ音は相殺される。
ホワイトノイズ（2台のCDプレーヤーで LとRを別々に再生）	L ＜ L-R ＝ L+R ＜ 2L	バラバラな音は相殺されないで、L-Rで増大する。
屋内のノイズ（劇場開演前のノイズ）	L ＜ L-R ≦ L+R	屋内の残響音はL-Rで増大する。
無響室での音楽	L-R ＜ L ＜ L+R	LとRの相関が強いほど相殺され、L-Rの音量は減少する。
コンサートホールでの演奏	L-R ≦ L ＜ L+R	中央に定位する音は相殺され、その分だけ音量は小さくなるが、残響音はL-Rで増大する。
小ホールでの演奏	L-R ≦ L ＜ L+R
ボーカル	L-R ≦ L ＜ L+R

さて、ここで、拡散音場を仮定して考えて見ましょう。音が一様に拡散しているとしましょう。その拡散音場の異なる2地点LとRにマイクをおいて音を収録し、その差L-Rを作ったらどうなるでしょうか。2台のCDプレーヤーを使ってホワイトノイズの差を作った時と同じく、L-Rの音は増大するに違いありませんね。
L-Rにより、中央に定位する音（左右同じ音）が相殺されて無くなるのに加えて、残響音、特に、拡散音場の成分は増大するというところにスピーカーマトリックスの意味があるのかもしれませんね。
※結果的に、スピーカーマトリックス（L-R）により、相関の強い音が相殺され、相関の弱い音が引き出されることになります。

音の空気吸収を考慮したスピーカーマトリックス
＜Air Matrix Surround＞

音は周波数が高いほど空気吸収されて減衰します。それで、演奏会場が大きくなればなるほど反射音の高域は減衰しているはずですね。スピーカーマトリックスでそれを考慮に入れてみました。

スピーカーマトリックスのL-R（R-L）の音は反射音と考えられています。確かに、そのように聴こえますね。さて、反射音ならば大きい会場の場合、高域はかなり減衰しているはずです。音は、距離減衰と壁の吸収に加えて、空気吸収という現象により周波数のほぼ2乗に比例して減衰することが知られています。それで、L-R（R-L）の音の高域を適度に減衰してやるなら、より一層反射音に近づくと考えられます。
この点でローパスフィルターで12dB/octという減衰の方法が一番適しているでしょう。というのは、これは周波数の2乗に比例して減衰するフィルターだからです。
さっそく、ローパスフィルターの遮断周波数をいろいろ変えてテストしてみました。12dB/octのローパスフィルターを使ったスピーカーマトリックスの構成は下図の通りです。

※アンプ１にTRIPATH TA2020を、アンプ２にONKYO A-933を使っています。マトリックス接続すると壊れるアンプもありますから要注意。

※上記の実際の音響システム（フロント側）
スピーカーマトリックス2のシステム

①DENON USC-F07（スピーカーマトリックスのフロント側）
メインスピーカーは、②VICTOR SX-F3　③ONKYO 202AX　④YAMAHA NS-10M　⑤DENON SC-E535 を切り替えて使います。
⑥DENON USC-F07（スピーカーマトリックスのリア側）

※マトリックス用のスピーカーには、フロント側とリア側に両方とも密閉型のDENON USC-F07を用いて音質を揃えました。USC-F07は格安（送料を含めて4,000円程度）で手に入り、しかもまずまずの音質です。ただ、ウレタンエッジがボロボロですから、水性ボンドで補修して何とか使えるようにしました。⇒ スピーカーエッジの補修

また、ローパスフィルターの構成は次の通りです。 12dB/octのローパスフィルター

最終的に4回路3接点のロータリースイッチ（容量不足ですが、大きい音は出さないので大丈夫でしょう）を使って、ローパスフィルターAとBを同時に大、中、小の3段階に切り替えられるようにしてみました。また、スピーカーマトリックスをオン･オフできるようにスイッチも付けました。Ｌ(mH)、Ｃ(μF)の値は表に示した値で落ち着きました（⇒12dB/oct(-3dBクロス）型ネットワーク）。この3段階は、便宜上、演奏会場（オーディオのリスニングルームではない）の大きさに対応させています。

演奏会場の大きさ	Ｌ（ｍＨ）	Ｃ（μＦ）	遮断周波数（kHz）
小	0.69	2.2	約4kHz
中	0.91	3.3	約3kHz
大	1.38	4.7	約2kHz
※スピーカーの入力インピーダンスＲ＝６（Ω）。2つを直列につないで12Ω。

実際にスピーカーの周波数特性を測定してみました。ホワイトノイズを片チャンネルからのみ入力してマトリックス用のスピーカーから出る音をマイクで収録して測定しました。多少いい加減な測定ですが、遮断周波数を読み取るには十分ですね。ローパスフィルターの周波数特性

さて、当然のことですが、演奏会場の中でのリスニングの位置が音源に近ければ、音源から離れているよりも直接音は大きくなります。したがって、直接音と反射音の相対的な音量差は演奏会場の中でのリスニングの位置に対応していることが分かります。メインスピーカーとスピーカーマトリックス用のアンプを別々に用いているので、この音量差を調整でき、リスニングの位置を擬似的に変えることができます。
また、スピーカーマトリックスをオン･オフできるようにスイッチを付けたので、その効果が確かめられます。6dB/octのローパスフィルターでも試してみましたが、やはり、12dB/octの方が効果があります。3段階ぐらいがちょうど良いようです。そして、実際の演奏会場の大きさや音楽ジャンルに合わせて切り換えて聴きます。これは本当に効果があり、すばらしい！　何よりも、普通のCDで臨場感のあるサウンドを楽しめるのです。

いろいろなジャンルの音楽をこのローパスフィルターを通して接続したスピーカーマトリックスで聞いてみました。
まず、調整の仕方ですが、次の手順で行うとうまくいきます。
（１）まず、演奏会場の大きさ＜大・中・小＞を選びます（演奏会場に行く）。
（２）ついで、メインスピーカーのボリュームを絞り、マトリックス用のスピーカーだけ（フロント側＋リア側）を鳴らして適度な音量にします（会場の入り口のドアを開く）。
（３）最後に、メインスピーカーの音量を少しずつ上げていき、一番バランスが良いところを探します（入り口から入り、好きな席に座って聴く）。

このようにして最適なポイントを探った結果、大体、次のことが言えそうです。

演奏会場の大きさ	メインスピーカーの音量	大・中・小	音楽ジャンル
小さな演奏会場	約1～2/3	小	残響時間が短い方が良い音楽や、ボーカルなど。
コンサートホール	約1～1/2	中	クラシックなど、残響時間がある程度長い方が良い音楽
教会など	約1～1/3	大	教会音楽など、残響時間が長い方が良い音楽など。
※メインスピーカーの音量は、マトリックス用スピーカーの音量に対する相対的なものです。マトリックス用スピーカーはフロント側とリア側で同じ音量で出しています。１というのはその合わせた音量とメインスピーカーの音量が大体同じ音量ということです。この音量は耳で聴いた大体の目安です。

この表から分かるように、メインスピーカーの音量よりもマトリックス用スピーカーの音量の方がかなり大きくなります。
音響学では、直接音と残響音のレベルが等しくなる距離を臨界距離と呼んでおり、臨界距離rは下記の式で表せます。
　　　r = 0.057√(V/T)　・・・・・V：会場の容積（㎥）　T：残響時間（s）

　　　・小さな演奏会場（T=1.2s、V=10000㎥）・・・・・r=5.2m
　　　・コンサートホール（T=2.0s、V=20000㎥）・・・・・r=5.7m
　　　・教会音楽（T=3.6s、V=5000㎥）・・・・・r=2.1m

それで、多くの場合、直接音より残響音の方が大きくなります。これは、『コンサートホールでは反射音が89％で直接音は11％だ』というボーズの主張とも一致していますね。

※という訳で、マトリックス用のスピーカーは高音質のものである必要があります。また、指向角は広い方が良いでしょう。それで、サラウンド用のスピーカーではなく、USC-F07（密閉型）を２組使ってみました。

ところで、思考実験を進めていくと面白いことが分かってきます。遮断周波数を無限に大きくしていきましょう。そうするとローパスフィルターを使わないこれまでのスピーカーマトリックスになります。ということは、従来のスピーカーマトリックスは演奏会場の大きさが0の場合の反射音ということになります。それで、この場合、音量差を調整する余裕はないことになります。これは、従来のスピーカーマトリックスの2つの問題点（①音量を合わせるのが難しいこと②聴き疲れすること）を良く説明しています。この場合、厳密に音量を合わせる必要があり、うまく合っても音源に近すぎて（会場の大きさは0）聴き疲れするのです。

一方、遮断周波数を0にまで小さくしていきましょう。こうなると、スピーカーマトリックスを使わないことと同じになります。つまり、メインのスピーカーだけになりますが、これは演奏会場が無限大で反射音が無い場合に相当します。これが通常のステレオということになります。確かに、リスニングルームが無響室ならそういうことになりますね。それで、通常のステレオではリスニングルームをチューニングしてリスニングルームの反射音で補う必要があるのです。

これらのことを表にまとめてみましょう。

演奏会場の大きさ	遮断周波数	特徴	アンプの音量差
0	∞	従来のスピーカーマトリックス	0
適度な大きさ	数kHz	高域を適度に減衰したスピーカーマトリックス	音量差はリスニングの位置の範囲で取れる
∞	0	通常のステレオ	∞

【12dB/octのローパスフィルターの導入の物理的な意味】
音の空気吸収による減衰のデータを見てみましょう（⇒屋外の音の伝搬における空気吸収の計算）。温度や湿度によりかなり異なりまが、温度20度、湿度50%の場合を示します。ただし、括弧内の数字は温度25度、湿度60%の場合です。

周波数（kHz）	空気吸収による減衰量（dB/km）	空気吸収で3dB減衰する距離（m）	3dB減衰するまで音が進む時間（Tc秒）
1.00	4.66	644	1.89
1.25	5.75	522	1.53
1.60	7.37	407	1.20
2.0	9.86 (10.2)	304 (294)	0.89 (0.86)
2.5	13.7	219	0.64
3.15	19.8 (16.9)	152 (178)	0.45 (0.52)
4.0	29.4 (23.2)	102 (129)	0.30 (0.38)
5.0	44.4	68	0.20
6.3	67.8	44	0.13
8.0	104	29	0.09
10.0	159	18.9	0.06

この表には3dB減衰する距離を載せてあります。2kHzの音は約300m（0.9秒後）で、3kHzの音は約150m（0.5秒後）で、4kHzの音は約100m（0.3秒後）で3dB減衰します。
それで、遮断周波数2kHz、3kHz、4kHzのローパスフィルターを通したスピーカーマトリックスの音の意味は、それぞれ下記のようになります。

演奏会場の大きさ	遮断周波数（kHz）	3dB減衰するのに要する距離（m）	3dB減衰に要する時間Tc（秒）	近似できる残響音（残響時間T秒）
小	約4kHz	約100m	約0.3秒	T=1.2の演奏会場の残響音
中	約3kHz	約170m	約0.5秒	T=2.0の演奏会場の残響音
大	約2kHz	約300m	約0.9秒	T=3.6の演奏会場の残響音

ここで、残響時間という概念を使いましょう。残響時間は会場の容積、吸音率そして表面積によって決まるとても役立つ数字で、残響音が60dB減衰する時間を表します。つまり、反射音が生き残っている時間を示します。とりわけ、反射音を問題にしているスピーカーマトリックスで利用しない手はありません。
コンサートホールの最適な残響時間は約2秒であると言われています。この残響音をL-Rの音で近似するとしたなら、何秒後（Tc秒後）のL-Rの音が一番近いでしょうか。これは実際に自分の耳で聴いてみるしかありません。そこで、試聴を繰り返したところ、0.5秒後、つまり、遮断周波数が3kHzぐらいの時がちょうど良いようです。
さらに何度も試聴を繰り返した結果、遮断周波数と同じ周波数の音が空気吸収で3dB減衰するに要する時間Tc（秒）に関して、次のことが言えそうです。

　　　　Tc ≒ 0.25T　・・・・・T：残響時間

この関係を使って、残響時間Tの場合の適切な遮断周波数を決定できます。音速を340（m/秒）とすると、遮断周波数と同じ周波数の音が空気吸収で3dB減衰するのに要する距離は340Tc（m）となりますが、音の空気吸収の減衰のデータから逆算して遮断周波数を求めることができます。上の表には、残響時間T（秒）が1.2（秒）、2.0（秒）、3.6（秒）の場合に、この方法で遮断周波数を求めたものが示されています。

さて、室内音響学では、音場の成長過程、定常状態、減衰過程に分けて考える場合があります（⇒残響理論と残響時間の理論式）。この成長過程で、0.25T（秒）は、計算してみると分かりますが、定常状態の約97%に達する時間に相当します（音場のエネルギー密度の成長の割合は、時間t、残響時間Tを用いて、1-exp(-13.8t/T) と表せますが、t=0.25Tを代入して0.97を得ることができます）。それで、0.25T（秒）後の音は会場のどこにおいても一定に聴こえる拡散音場、つまり、直接音や初期反射音、成長過程にある音を除いた音、あるいは、音源から十分に遠い音と言えるかも知れません。もし、そうなら、これはスピーカーマトリックスで実現しようとしている目的の音ということになります。

これは補足ですが、この考え方（遮断周波数の決定方法）は、信号の差成分をL-aR（0＜a＜1）とする場合でも同様に当てはまります。音の空気吸収により反射音の高域が減衰する物理的な現象は同じだからです。

さて、推論を続けましょう。そして、どうしても高域の減衰が必要な理由を考えて見ましょう。
音の広がりは左右の音の相関が無い方が増すという考え方からすると、左のスピーカーからL-Rの音、右のスピーカーからR-Lの音を出すと、位相が逆なので最大の広がりが得られることになります。実際、左右に広がって聴こえます。逆に、L+Rの音を出すと中央に定位します。それで、スピーカーマトリックスは音の広がりを増す効果的な方法と言えます。

しかし、やはり一番重要で、最も難しい点は、LとRの差成分（L-R）の意味するところです。実際、通常の録音CDでL-Rの音を聴いてみると、確かに、反射音のように聴こえます。一方、聴き疲れすると言う人も少なくありません。では、このL-Rの音の正体について考えて見ましょう。

さて、通常の録音CDには、直接音と反射音が含まれています。
　　L = Ld（左のスピーカーの直接音） + Lr（左のスピーカーの反射音）
　　R = Rd（右のスピーカーの直接音） + Rr（右のスピーカーの反射音）
このとき、L-Rの音は下記のようになります。
　　 L - R = (Ld - Rd) + (Lr - Rr)
L-Rの音（差成分）が広がりのある反射音に聴こえるのは、Lr-Rr（反射音の差成分）があるからに違いありません。

では、Ld-Rd（直接音の差成分）はどうなのでしょうか。ここで、無響室で録音されたCDで試して見ましょう（⇒ デンオン・オーディオ・チェックCD）。これをスピーカーマトリックスで聴くとどうなるでしょうか。この場合、Lr=0、Rr=0なので、
　　L - R = (Ld - Rd)
ですから、Ld-Rd（直接音の差成分）だけを聴いていることになります。同相の共通成分は打ち消されて無くなってはいるものの、なおかなりの音が含まれています。もともと、不自然な音ですが、L-Rの音も、広がりは増すものの、響きのない不自然な音に変わりはありません。それで、この音に残響音の効果を期待することはできません。
ではどうしたらこの直接音を反射音として利用することができるでしょうか。会場に物理的な大きさがあるなら、反射音には、少なくとも、「空気吸収による高域の減衰」が必要となります。大きな会場であればあるほど、反射音は長い距離を進むことになるからです。もしこのままこの音を反射音として用いると、空気吸収のない不自然な反射音になってしまうでしょう。でなければ、大きさが0の演奏会場の反射音ということになります。
そこで、この音を12dB/octのローパスフィルターを通して聴くとどうなるでしょうか。たとえば、遮断周波数を3kHzにすると、この音は0.5秒後の音になります。この音を元の音と比較しながら聴き比べてみると、会場が相対的に大きくなったように感じることができますが、響きが得られるわけではありません。しかし、それは、周波数の2乗に比例して減衰するという必要条件を満たしてます。

さて、通常の録音CDには反射音も含まれています。この録音をスピーカーマトリックスで聴いてみると、響きが広がりを持って聴こえます。これはすごいことですね。そして、無響室の録音CDの実験から分かるように、この広がりのある響きは、Lr-Rr（反射音の差成分）によるものであることは明らかです。ここには残響音の成分があり、しかもそれが広がって聴こえているのです。
ただ、ここで、忘れてはいけないのは、直接音の差成分（Ld-Rd）も含まれているということです。この音は、Lr-Rrがあるために気付き難いのですが、不自然な音として存在しているはずです。しかも、音源の近くで収録した音ですから、直接音の割合はかなり大きく、したがって、直接音の差成分（Ld-Rd）の割合もかなり大きいはずなのです。そして、この音の存在は、聴き疲れするという現象に現れています。
さて、この残響成分を含む、しかし、直接音も少なくないL-Rの音を、会場の大きさに合ったサラウンドの音として利用するにはどうしたらよいでしょうか。長い距離を進む反射音には、空気吸収という物理的な必要条件があることを思い出しましょう。そこで、高域を適切に減衰してやると、この音は会場の物理的な大きさと矛盾しない「反射音」になり得ます。

試聴を繰り返した結果、Tc≒0.25T（秒）後の音となるような遮断周波数で減衰してやると、残響時間Tの演奏会場の残響音を近似できることが分かりました。この音は、下記のように、残響音の条件を満たしています。
（１）スピーカーマトリックスにより音の広がり（方向）がある。
（２）12dB/octのローパスフィルターによる減衰により、反射音の物理的条件を満たす。
（３）Tc=0.25T（秒）のとき、近似的に拡散音場と考えることができる。

スピーカーマトリックスは音の広がり（方向）を作る方法、12dB/octのローパスフィルターによる減衰は会場の大きさ（距離）を作る方法ということができます。この両者により、残響音が近似的に生成されると考えられます。それで、演奏会場の音場は、この残響音とメインスピーカーＬとＲの音の和によって再現されると考えられます。

演奏会場の音場＝近似的な残響音　＋　メインスピーカーＬとＲの音

さて、これで、近似的な残響音（L-R）の準備ができました。後は、メインスピーカーの音量調整です。
ところで、会場に物理的な広さがあるなら、この音量調整には幅があるはずです。これは、現実の会場を反映した音響システムの1つの条件といえるでしょう。現実の会場ではリスニングポイントには自由度があるからです。この自由度は会場が大きければ大きいほど高くなります。ここで、残響音のエネルギーは会場のどこでも同じと仮定することができます（拡散音場の仮定）。とすると、マトリックス用スピーカーの音量はリスニングポイントによらず決定しています。であれば、まず、マトリックス用のスピーカーの音量を決めましょう。もちろん、会場の大きさはそれ以前に決まっていますから、一番最初に演奏会場の大きさ＜大・中・小＞を決めておきます。それから、自分の好きなリスニングポイントを選びましょう。メインスピーカーの音量を自分の好みに合わせればよいのです。そうすれば、ローパスフィルターで高域減衰していない、LとRの音が姿を現すのです。・・・・・

推論はここまでにしましょう。物理的に一番最適な遮断周波数を決めるのは難しいことでしょう。脳は残響音をどのようにとらえているのでしょうか。また、スピーカーマトリックスで脳をうまくだますことができるでしょうか。それで、後は実際にいろいろ試して自分の脳に聴いてみるしかありません。

空気吸収による音の減衰を考慮しました。音の減衰の要因として他にも壁の吸音なども考慮しなければなりません。しかし、これは壁の材質の吸音特性により異なるもので、演奏会場に依存しています。一方、空気吸収による減衰はより一般的な現象であり、演奏会場には依存していません。それで、それをオーディオシステムの中に組み込むことには意味があります。そうすることにより、演奏会場で起きている一般的現象をリスニングルームで再現できるからです。

また、このシステムは、アンプに入力する前の信号を処理することによっても実現できます。つまり、CDプレーヤーなどのステレオ信号LとRの差成分L-R（R-L）を12dB/octのローパスフィルターで高域を減衰して残響音の信号を生成し、それをアンプで再生することもできます。

※試作機です。現在は、もっぱらこれを使って聴いています。周波数特性の正確な確認ができます。簡単な試聴にはスピーカーマトリックスで十分ですが。
音の空気吸収を考慮したマトリックスの試作機

12db/octのローパスフィルタを通した信号と、空気吸収の周波数特性を比較すると、ほぼ近似できることが分かります。
空気吸収の周波数特性と比較

【残響音の生成にディレイは必要か？】
残響時間T=2.0(秒)の残響時間の生成にカットオフ周波数が3kHzのローパスフィルターを使いました。これは、0.5秒後の音です。では、その分の時間遅れ（Delay）が必要なのでしょうか。

さっそく、実際に、Delay（RAMSA WZ-9370 デジタルディレイ）をヤフオクで5,000円ほどで入手して、L-Rにディレイをかけてみました。R-Lは、L-Rを分配器で取り出して、スピーカーを＋－逆に接続して出しました。それで、RAMSA WZ-9370は1CHのディレイなのですが、L-RとR-Lの2つの遅延が可能となります。

①DENON DCD-755RESP　 ②KENWOOD DP-7060　 ③ONKYO EQ-211M
④ONKYO A-933　 ⑤FX-AUDIO-FX202J　 ⑥ZERO TA2020
⑦マスプロ電工 AV分配器 VSP4　⑧Delay(RAMSA WZ-9370)
⑨L-Rの生成と12dB/octのローパスフィルター（カットオフ周波数4kHz、3kHz、2kHz）

さて、L-Rを0.5秒遅らせて聴いてみました。すると、当然のことですが、音が二重になって聞こえます。
それで、Delayの時間を数十ミリ秒にして、FEEDBACKを調整してみました。そうすると、何とか厚みのある残響音のようになりました。しかし、音質はあまり良くありません。しかも、それは、CD音源から忠実に再現された残響音というより、Delayにより「造り出さ」れた残響音と言えるでしょう。いろいろ調整して楽しむ（実験する）分にはよいのですが。

ところで、ステレオ録音にはすでに残響音が録音されているのではないでしょうか。つまり、時間遅れの音も録音されているはずではないでしょうか。だた、音源の近くで収録されている場合は、残響音が直接音と比べて相対的に小さくなっています。それで、何とかしてステレオ録音から残響音を「引き出し」たいのです。その方法の1つが『音の空気吸収を考慮したスピーカーマトリックス』なのです。
音の空気吸収を考慮したスピーカーマトリックスでは、0.5秒後の残響音を引き出すために、L-Rでなお残っている直接音の高域（反射音では減衰しているはずのもの）を打ち消しているのです。

【バーチャルサラウンドに挑戦！】
現在は、スピーカーを２つ使ったステレオシステムが主流を占めています。では、スピーカーを２つだけ使って擬似的にサラウンド効果を出せないでしょうか。つまり、バーチャルサラウンドです。では、音の空気吸収を考慮した残響音の考え方でバーチャルサラウンドを実現してみましょう。

音の空気吸収を考慮したスピーカーマトリックスでは、サラウンド用にスピーカーを４つ使いました。そのようにして下記のように音の重ね合わせにより演奏会場の音を再現しました。

演奏会場の音場＝近似的な残響音　＋　メインスピーカーＬとＲの音

さて、サラウンド用スピーカーをフロイント側だけの２つにしてもある程度の効果があります。では、この音の重ね合わせを信号のレベルで行うことはできないでしょうか。もしそれが可能なら、スピーカーを2つ使った通常のステレオシステムでバーチャルサラウンドが簡単に実現できます。

演奏会場の音の信号＝近似的な残響音の信号
　　　　　　　　　　　＋　メインスピーカーＬとＲの音の信号

問題は、オーディオシステムは完全な線形システム（重ね合わせの原理が成り立つシステム）ではないということです。特に、電気信号から音波になる時には少なからず線形性は失われることでしょう。しかし、それでも近似的に線形システムと考えなければオーディオシステムの開発は難しいことでしょう。・・・・ということで、信号レベルでの合成を試みてみましょう。
下記はその構成を図に表したものです。

これは、簡単なミキサー（FOSTEX ミニ・ジャム PC-2LIVE、など）を使って実現できます。

結果は、良好です。といっても、スピーカーを複数用いたときのような効果は期待できません。ミキサーで音量の割合を調整して、大体同じ音量が出ている辺りに調整すると効果が分かります。このバーチャルサラウンドを使った時の方が使わない時に比べて音が広がり豊かになるのが分かります。これはフロントにサラウンド用のスピーカーを２つ用いて残響音を生成した場合に近い効果があります（スピーカの位置の違いがあり、完全な比較はできません）。しかし、４つのスピーカーを用いたサラウンドに切り換えると音はさらに部屋全体に広がります。
また、スピーカーの代わりにヘッドフォンを用いても同様の効果が得られます。

バーチャルサラウンドの問題点を整理してみましょう。
（１）音の方向
（２）線形性の仮定
（３）音質の劣化
サラウンドの本質は反射音がいろいろな方向から来ることを実現することのはずですが、バーチャルサラウンドではそれがもともとできないという前提です。この点はどうしようもありません。それでも、マトリックスの効果で音は広がり豊かになります。
線形性については、線形システムと考えないと設計があまりにも難しくなります。しかし、結果的には、実用上近似的に線形システムと考えても良いように思われます。
音の劣化についても、問題ないように思われます。といいますのは、確かに、回路が増えるのですが、すべて簡単な回路で済むからです。高音質化は可能であるに違いありません。

最後に考えるべきなのは、このバーチャルサラウンドと、良くチューニングされたリスニングルームの残響音との比較でしょう。通常の考え方では、ステレオシステムの場合、リスニングルームをチューニングすることにより残響音を生成します。これを上手に行えばきっと良い音がするのでしょう。しかし、それに本気で取り組んだことがありません。というのは、たとえうまくいっても、それはリスニングルームの残響音で、演奏会場の残響音ではないからです。もっとも、どんな方法にしても近似的なものという点では同じなのですが。・・・・いずれにしましても、リスニングルームのチューニングにはかなりの費用がかかることが少なくないようです。一方、ここで考えているサラウンドシステムはきわめて簡単にしかも安価にできるのです。

人間の音の認識能力

オーディオを極めるには人間の脳の働きを知る必要があります。しかしこれは果てしない探求の始まりになりそうですね。

『音のなんでも小事典』という本を読んでみました。広く浅く色々なことが述べられている本ですが、知らないことが多くて愕然としました。何度も読み返して、もっと大きな視野でオーディオシステムを見つめ直してみたいと思います。

さて、最後に行き着くところは人間の音の認識能力に違いありませんね。これを抜きにしてはオーディオはもう語れないでしょう。

音は耳から入ってきますが、それを認識するのは脳。脳が膨大な情報処理を行って音像を頭の中に再構成します。意識内容とその外にあるものは別物であることに気づかせたのは哲学者のカント。意識は脳が再構成したものですから、対象＝物自体とは異なっているはずですね。例えば、色は光の波長の違いで生ずるものですから、物自体には色はないのです。このコペルニクス的転回以来、人間の認識能力が注目されてきました。音をはじめ意識内容は脳で再構成されたものに間違いないのです。

この事実を裏付けているのがイリュージョン（錯覚）です。これまで、錯視の問題は良く注目されてきましたが、音のイリュージョン（錯聴）についてはあまり語られてはいませんでした。しかし、最近、錯聴の研究が進んできたようです。ステレオも錯聴の一つと考えられるようです。いかにして臨場感のある音響空間を脳の中に再構成するかの挑戦なのです。R-L（L-R）の音が遠くの音に聞こえるのも錯聴に違いありませんね。実際に、すぐそこのスピーカーでなっているのですから。

また、聴覚は視覚と切り離しては考えられないようですね。口の動きを見ると聞きにくい音も聞き取れてしまうのですから。こうした点から、オーディオの実験に良くブラインドテストが行われますが、これは確かに有効な方法といえます。スピーカーやアンプ、またケーブルなどに高価なブランド品を使用していることが分かると、いい音に聞こえる可能性は高くなります。これは脳の判断のなせる業（トップダウン処理）ですね。よく、YAMAHA NS-10M（通称テンモニ）の音を「紙くさい」という人がいます。確かに、テンモニのコーンを見ながら聴くと紙くさく聞こえるような気がするのも不思議ですね。トップダウン処理が強力には働いているようですね。

音の認識の問題でさらに難しい問題があります。それは脳の学習能力です。音の認識能力はいつも同じではないのです。聴きなれると良く聞こえる可能性がでてきます。それに、音楽の理解は言語の理解と似たところがあるようです。いつも他の音楽を聴いている人にはクラシックの理解は難しいに違いありません。それは、まさに他の言語を聞いているようなものなのです。音楽の理解には学習が必要なのです。しかしながら、民族音楽のように、母語のように他の音楽を理解するのは難しいことに違いありません。・・・・・オーディオを極めるには人間の脳の働きを知る必要があるということですね。

音響攻略メモ

音響好きの趣味のサイト