[英]Python: Create a Binary search Tree using a list
我的代码的目标是从 txt 文件中获取每个单独的单词并将其放入列表中,然后使用该列表制作二叉搜索树来计算每个单词的频率并按字母顺序打印每个单词及其频率。 中的每个单词只能包含字母、数字、- 或 ' 我的初学者编程知识无法做到的部分是使用我拥有的列表制作二叉搜索树(我只能插入整个列表在一个节点中,而不是将每个单词放在一个节点中以制作树)。 我到目前为止的代码是这样的:
def read_words(filename):
openfile = open(filename, "r")
templist = []
letterslist = []
for lines in openfile:
for i in lines:
ii = i.lower()
letterslist.append(ii)
for p in letterslist:
if p not in ['a','b','c','d','e','f','g','h','i','j','k','l','m','n','o','p','q','r','s','t','u','v','w','x','y','z',"'","-",' '] and p.isdigit() == False:
letterslist.remove(p)
wordslist = list("".join(letterslist).split())
return wordslist
class BinaryTree:
class _Node:
def __init__(self, value, left=None, right=None):
self._left = left
self._right = right
self._value = value
self._count = 1
def __init__(self):
self.root = None
def isEmpty(self):
return self.root == None
def insert(self, value) :
if self.isEmpty() :
self.root = self._Node(value)
return
parent = None
pointer = self.root
while (pointer != None) :
if value == pointer._value:
pointer._count += 1
return
elif value < pointer._value:
parent = pointer
pointer = pointer._left
else :
parent = pointer
pointer = pointer._right
if (value <= parent._value) :
parent._left = self._Node(value)
else :
parent._right = self._Node(value)
def printTree(self):
pointer = self.root
if pointer._left is not None:
pointer._left.printTree()
print(str(pointer._value) + " " + str(pointer._count))
if pointer._right is not None:
pointer._right.printTree()
def createTree(self,words):
if len(words) > 0:
for word in words:
BinaryTree().insert(word)
return BinaryTree()
else:
return None
def search(self,tree, word):
node = tree
depth = 0
count = 0
while True:
print(node.value)
depth += 1
if node.value == word:
count = node.count
break
elif word < node.value:
node = node.left
elif word > node.value:
node = node.right
return depth, count
def main():
words = read_words('sample.txt')
b = BinaryTree()
b.insert(words)
b.createTree(words)
b.printTree()
由于您是初学者,我建议使用递归而不是迭代来实现树方法,因为这将导致更简单的实现。 虽然递归起初可能看起来有点困难,但它通常是最简单的方法。
这是一个二叉树的实现草案,它使用递归来插入、搜索和打印树,它应该支持您需要的功能。
class Node(object):
def __init__(self, value):
self.value = value
self.left = None
self.right = None
self.count = 1
def __str__(self):
return 'value: {0}, count: {1}'.format(self.value, self.count)
def insert(root, value):
if not root:
return Node(value)
elif root.value == value:
root.count += 1
elif value < root.value:
root.left = insert(root.left, value)
else:
root.right = insert(root.right, value)
return root
def create(seq):
root = None
for word in seq:
root = insert(root, word)
return root
def search(root, word, depth=1):
if not root:
return 0, 0
elif root.value == word:
return depth, root.count
elif word < root.value:
return search(root.left, word, depth + 1)
else:
return search(root.right, word, depth + 1)
def print_tree(root):
if root:
print_tree(root.left)
print root
print_tree(root.right)
src = ['foo', 'bar', 'foobar', 'bar', 'barfoo']
tree = create(src)
print_tree(tree)
for word in src:
print 'search {0}, result: {1}'.format(word, search(tree, word))
# Output
# value: bar, count: 2
# value: barfoo, count: 1
# value: foo, count: 1
# value: foobar, count: 1
# search foo, result: (1, 1)
# search bar, result: (2, 2)
# search foobar, result: (2, 1)
# search bar, result: (2, 2)
# search barfoo, result: (3, 1)
为了回答您的直接问题,您将所有单词放入单个节点的原因是因为main()
中的以下语句:
b.insert(words)
insert 函数创建一个Node
并将Node
的值设置为您传入的项目。相反,您需要为列表中的每个项目创建一个节点,这正是您的createTree()
函数所做的。 前面的b.insert
不是必需的。
删除该行会使您的树正确形成,但会揭示数据结构设计的一个基本问题,即printTree()
方法。 此方法似乎旨在遍历树并在任何子节点上递归调用自身。 在您的初始版本中,此函数有效,因为那里的树格式错误,整个列表中只有一个节点(并且打印函数只是打印该值,因为左右为空)。
然而,对于正确形成的树, printTree()
函数现在尝试在左右后代上调用自己。 然而后代是类型的_Node
,不类型的BinaryTree
,并且没有方法printTree()
宣称为_Node
对象。
您可以通过以下两种方式之一来挽救您的代码并解决这个新错误。 首先,你可以实现你的BinaryTree.printTree()
函数为_Node.printTree()
你不能直接复制和粘贴,但函数的逻辑不会有太大变化。 或者,您可以将方法留在原处,但将每个_left
或_right
节点包装在新的_right
,以便它们具有必要的printTree()
方法。 这样做会使方法保持_Node
,但您仍然需要在_Node
内部实现某种辅助遍历方法。
最后,您可以将所有 _Node 对象更改为 _BinaryTree 对象。
节点和树之间的语义差异是范围之一。 一个节点应该只知道它自己,它的直接子节点(左和右),可能还有它的父节点。 另一方面,一棵树可以知道它的任何后代,无论距离多远。 这是通过将任何子节点视为它自己的树来实现的。 即使是一片没有任何孩子的叶子也可以被认为是一棵深度为 0 的树。这种行为是让树递归工作的原因。 您的代码将两者混合在一起。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.