如何在 Python 中使用梯度下降法找到 2 個參數？

Question

我有幾行不收斂的代碼。 如果有人知道為什么，我將不勝感激。 原始方程寫在 def f(x,y,b,m) 中，我需要找到參數 b,m。

  np.random.seed(42)
  x = np.random.normal(0, 5, 100)
  y = 50 + 2 * x + np.random.normal(0, 2, len(x))

  def f(x, y, b, m):
      return (1/len(x))*np.sum((y - (b + m*x))**2) # it is supposed to be a sum operator

  def dfb(x, y, b, m): # partial derivative with respect to b
      return b - m*np.mean(x)+np.mean(y)

  def dfm(x, y, b, m): # partial derivative with respect to m
      return np.sum(x*y - b*x - m*x**2)

  b0 = np.mean(y)
  m0 = 0
  alpha = 0.0001
  beta = 0.0001
  epsilon = 0.01

  while True:

      b = b0 - alpha * dfb(x, y, b0, m0)
      m = m0 - alpha * dfm(x, y, b0, m0)

      if np.sum(np.abs(m-m0)) <= epsilon and np.sum(np.abs(b-b0)) <= epsilon:
          break
      else:
          m0 = m
          b0 = b
      print(m, f(x, y, b, m))

Answer 1

兩種衍生品都有一些混淆的跡象：

def dfb(x, y, b, m): # partial derivative with respect to b
  # return b - m*np.mean(x)+np.mean(y)
  #          ^-------------^------ these are incorrect
  return b + m*np.mean(x) - np.mean(y)

def dfm(x, y, b, m): # partial derivative with respect to m
  #      v------ this should be negative
  return -np.sum(x*y - b*x - m*x**2)

事實上，這些導數仍然缺少一些常數：

dfb應乘以2
dfm應乘以2/len(x)

我想這還不錯，因為無論如何梯度都會按alpha進行縮放，但這可能會使收斂速度變差。

如果您確實使用了正確的導數，您的代碼將在一次迭代后收斂：

def dfb(x, y, b, m): # partial derivative with respect to b
  return 2 * (b + m * np.mean(x) - np.mean(y))

def dfm(x, y, b, m): # partial derivative with respect to m
  # Used `mean` here since (2/len(x)) * np.sum(...)
  # is the same as 2 * np.mean(...)
  return -2 * np.mean(x * y - b * x - m * x**2)

如何在 Python 中使用梯度下降法找到 2 個參數？

問題描述

1 個解決方案

解決方案1
1 已采納 2021-05-30 20:49:41

如何在 Python 中使用梯度下降法找到 2 個參數？

問題描述

1 個解決方案

解決方案1 1 已采納 2021-05-30 20:49:41

解決方案1
1 已采納 2021-05-30 20:49:41