在不久的将来的某个时候,我将需要实现跨语言字数,或者如果不可能,则需要跨语言字符数。

字数统计是指给定文本中包含的单词的准确计数,采用文本的语言。 文本的语言由用户设置,并且将被假定为正确。

字符数是指给定文本中包含的“可能在单词中”字符的计数,具有上述相同的语言信息。

我更喜欢前者,但我知道所涉及的困难。 我也知道后者的数量要容易得多,但如果可能的话,非常喜欢前者。

如果我只是看英语,我会喜欢它,但我需要考虑这里的所有语言,中文,韩文,英文,阿拉伯文,印地文等。

我想知道Stack Overflow是否有任何线索在哪里开始寻找现有的产品/方法在PHP中执行此操作,因为我是一个很好的懒惰程序员*

一个简单的测试,显示了如何使用set_locale的str_word_count,以及来自php.net的str_word_count页面的函数。

* http://blogoscoped.com/archive/2005-08-24-n14.html

#1楼 票数:5 已采纳

计算字符很容易:

echo strlen('一个有十的字符的句子'); // 30 (WRONG!)
echo strlen(utf8_decode('一个有十的字符的句子')); // 10

计算单词是事情开始变得棘手的地方,特别是对于不使用空格(或其他常见的“单词边界”字符)作为单词分隔符的中文,日语和其他语言。 我不会说中文,我不明白字数是如何用中文的,所以你必须教育我一点 - 用这些语言说什么? 是特定的字符或字符集吗? 我记得读过一些与T9写作中识别日语单词有多难相关但又找不到的东西。

以下内容应正确返回使用空格或标点符号作为单词分隔符的语言中的单词数:

count(preg_split('~[\p{Z}\p{P}]+~u', $string, null, PREG_SPLIT_NO_EMPTY));

#2楼 票数:0

如果你只需要近似而不是确切的单词,那么这是一个快速的伎

<?php echo count(explode(' ',$string)); ?>

它的工作原理是用任何语言计算空间。 我用它来翻译脚本。 同样,它不会计算确切的单词,而是在段落中给出近似的单词。

#3楼 票数:-1

我们会尽力:

<?
function count_words($str){
     $words = 0;
     $str = eregi_replace(" +", " ", $str);
     $array = explode(" ", $str);
     for($i=0;$i < count($array);$i++)
      {
         if (eregi("[0-9A-Za-zÀ-ÖØ-öø-ÿ]", $array[$i]))
             $words++;
     }
     return $words;
 }
 echo count_words('This is the second one , it will count wrong as well" , it will count 12 instead of 11 because the comma is counted too.');
 ?>

  ask by Michael Robinson translate from so

未解决问题?本站智能推荐:

2回复

计算混合语言文档中的单词

给定一组包含汉字,基于拉丁字母的单词或二者兼而有之的行,我想获取单词数。 以机智: 理想情况下应该给出10个字; 但是,当然,如果不使用字典,则最好将示例视为两个单独的字符。 因此,此处11个单词/字符的数量也是可接受的结果。 显然, wc -w无法正常工作。 它将6个
3回复

如何使用 Python 拆分数据库中的一系列字符串,然后旋转显示单词及其出现次数的结果

如果我有一个数据库,其中包含数百个单独的字符串组合,并带有一个简单的分隔符,例如, 如何拆分每个维度的字符串,然后在列输出中按单词计数? 我是 python 的新手,所以我了解 DF 设置的简单拆分和基础知识,但我不确定如何将它们放在一起。 例如,以下是如何工作的,但我不确定我是否会遍历我拥有
8回复

有效计算python中的词频

我想计算文本文件中所有单词的频率。 应该返回{'aaa':1, 'bbb': 2, 'ccc':1}如果目标文本文件是这样的: 我在一些帖子之后用纯 python 实现了它。 但是,由于文件大小(> 1GB),我发现纯 python 方法是不够的。 我认为借用sklearn的力量是一
2回复

用php中的html标签计算字符串中的单词

我正在尝试计算这样的示例字符串中的单词: 阅读文档后,我发现了一个函数,它应该完全符合我的意图。 但不知何故,结果并不完全正确。 这是我正在使用的代码: function rip_tags($string) { // ----- remove HTML TAGs -----
1回复

计算doc和docx文件中的单词

我想计算.doc和.docx文件中的单词数。 我试过下面的代码:- 但是上面的代码并没有给我预期的结果。 我也搜索了谷歌和stackoverflow搜索部分。 但是我没有找到想要的答案。 注意:-该代码将不依赖于操作系统或服务器。
3回复

创建一个有效的单词计数器,包括中文/日语和其他重音语言

在尝试了解如何使用字符串的有效字计数器之后,我知道PHP具有str_word_count的现有函数,但不幸的是它没有做我需要它做的事情,因为我需要计算包含的字数英文,中文,日文和其他重音字符。 但是str_word_count无法计算单词的数量,除非你在第三个参数中添加字符,但这是疯了 ,
4回复

如何计算所有带有特殊字符的单词

我有一个关于字符串的问题,我想计算字符串中的所有字符。 就像我有一个字符串
1回复

PHP的单词数比str_word_count好

因为我读到str_word_count有缺陷,所以我寻找了一个替代解决方案,然后遇到了以下解决方案,除了一个问题外,该解决方案通常效果很好。 问题在于它检测到破折号“-”作为单词。 例: 它将由7个单词而不是6个单词组成。 是否可以从此字数统计中排除单个字符-