連続最適化の文脈での直線探索法では
x∈Sargminf(x) という最適化問題を考えたが、確率的最適化では
x∈Sargmin#Λ1ℓ∈Λ∑f(ℓ)(x) と記述できる問題を考える。ただし#Λは集合Λの要素数である。上の式の表記は難しく見えるが、Λは観測したデータの番号だと思えば、パラメータをxに固定したときの各データ点ごとの誤差f(ℓ)(x)の平均
F(x)=#Λ1ℓ∈Λ∑f(ℓ)(x) を最小化する問題だとみなせるので幾分解釈しやすいだろう。たとえば5つのデータが観測されたときはΛ={1,2,3,4,5}として
#Λ1ℓ∈Λ∑f(ℓ)(x)=5f(1)(x)+f(2)(x)+f(3)(x)+f(4)(x)+f(5)(x) である。
最小二乗法による線形回帰を確率最適化の文脈に書き直してみよう。