简体   繁体   English

计算由段落组成的字符串中的单词数

[英]Count the number of words in a string composed by paragraphs

I'm trying to count the number of words present in a string.我正在尝试计算字符串中存在的单词数。 This string is composed by 3 paragraphs with 281 words.该字符串由 3 个段落组成,共 281 个单词。

I'm using the split.length method, but the word counting I'm getting is 279 and not 281. Can't figure out what I'm doing wrong in order to be missing 2 words from the counting.我正在使用 split.length 方法,但我得到的字数计数是 279 而不是 281。无法弄清楚我做错了什么以便从计数中丢失 2 个单词。 Can you help please?你能帮忙吗?

 const loremIpsumString = `Lorem ipsum dolor sit amet, consectetur adipiscing elit. Duis imperdiet ornare ante, iaculis facilisis elit bibendum pulvinar. Vestibulum nec tempor libero, vitae ullamcorper arcu. Pellentesque tempor euismod viverra. Donec et mi at leo ultrices elementum sed sed lectus. Quisque aliquam, urna cursus ornare accumsan, eros turpis sagittis dui, efficitur placerat orci ex sit amet est. Nunc sodales neque elit, quis consequat magna tristique ac. Suspendisse potenti. Nunc volutpat pulvinar neque, non interdum felis varius eget. Praesent dictum eros a purus tempor, et pellentesque ipsum dictum. Nulla ac magna nisl. Quisque vulputate convallis ex nec venenatis. Nunc hendrerit tristique dictum. Integer posuere sed libero id vestibulum. Aliquam quis elit et massa varius euismod. Maecenas et imperdiet neque. Phasellus aliquet purus sed enim pharetra tempus. Ut euismod facilisis enim, quis dictum nulla pulvinar quis. Donec a est leo. In hac habitasse platea dictumst. Proin fringilla, quam et feugiat pretium, erat augue pretium eros, ac facilisis eros lectus vel ipsum. Donec dui libero, sagittis eget auctor sed, dictum in orci. Mauris mollis fermentum purus nec aliquet. In ultricies mi sed tortor vehicula, ut semper ex posuere. Suspendisse commodo massa non sem porta suscipit. In finibus neque vel dolor malesuada mattis. Etiam tincidunt mattis velit nec viverra. Nulla facilisi. Mauris eu odio pharetra, vehicula augue sit amet, accumsan tortor. Sed tempus metus ac gravida scelerisque. Aenean ullamcorper orci id ipsum bibendum, a sollicitudin ligula sagittis. Integer id tellus sit amet enim faucibus consequat. Duis nisi purus, volutpat sit amet fermentum eu, tincidunt non purus. Praesent leo orci, tempor et felis non, suscipit lacinia mi. Nulla a justo sed elit tincidunt imperdiet. Aenean hendrerit vehicula odio, sit amet cursus eros aliquet non. Vestibulum vulputate scelerisque ultricies.`; const numWords = (loremIpsumString.split(" ").length); console.log(numWords);

Many thanks!非常感谢!

You're splitting the text by the literal space, so the words that are on paragraph boundaries are considered a single "word", eg nisl.\n\nQuisque .您通过文字空间分割文本,因此段落边界上的单词被视为单个“单词”,例如nisl.\n\nQuisque You need to split by any whitespace instead, using a regular expression:您需要使用正则表达式替换任何空格:

const numWords = loremIpsumString.split(/\s+/g).length;

This MDN guide provides an introduction to regular expressions.MDN 指南介绍了正则表达式。

When working with dynamic strings, it would be also a good idea to remove leading and trailing whitespace before counting:使用动态字符串时,在计数之前删除前导和尾随空格也是一个好主意:

const numWords = someString.trim().split(/\s+/g).length;
const regexConst = /[a-zA-Z]\w*/g
const loremIpsumString = `Lorem ipsum dolor sit amet, consectetur adipiscing elit. Duis imperdiet ornare ante, iaculis facilisis elit bibendum pulvinar. Vestibulum nec tempor libero, vitae ullamcorper arcu. Pellentesque tempor euismod viverra. Donec et mi at leo ultrices elementum sed sed lectus. Quisque aliquam, urna cursus ornare accumsan, eros turpis sagittis dui, efficitur placerat orci ex sit amet est. Nunc sodales neque elit, quis consequat magna tristique ac. Suspendisse potenti. Nunc volutpat pulvinar neque, non interdum felis varius eget. Praesent dictum eros a purus tempor, et pellentesque ipsum dictum. Nulla ac magna nisl.

Quisque vulputate convallis ex nec venenatis. Nunc hendrerit tristique dictum. Integer posuere sed libero id vestibulum. Aliquam quis elit et massa varius euismod. Maecenas et imperdiet neque. Phasellus aliquet purus sed enim pharetra tempus. Ut euismod facilisis enim, quis dictum nulla pulvinar quis. Donec a est leo. In hac habitasse platea dictumst. Proin fringilla, quam et feugiat pretium, erat augue pretium eros, ac facilisis eros lectus vel ipsum.

Donec dui libero, sagittis eget auctor sed, dictum in orci. Mauris mollis fermentum purus nec aliquet. In ultricies mi sed tortor vehicula, ut semper ex posuere. Suspendisse commodo massa non sem porta suscipit. In finibus neque vel dolor malesuada mattis. Etiam tincidunt mattis velit nec viverra. Nulla facilisi. Mauris eu odio pharetra, vehicula augue sit amet, accumsan tortor. Sed tempus metus ac gravida scelerisque. Aenean ullamcorper orci id ipsum bibendum, a sollicitudin ligula sagittis. Integer id tellus sit amet enim faucibus consequat. Duis nisi purus, volutpat sit amet fermentum eu, tincidunt non purus. Praesent leo orci, tempor et felis non, suscipit lacinia mi. Nulla a justo sed elit tincidunt imperdiet. Aenean hendrerit vehicula odio, sit amet cursus eros aliquet non. Vestibulum vulputate scelerisque ultricies.`;

const totalWords = loremIpsumString.match(regexConst).length

console.log(totalWords)

will console.log the total amount of words (DOESNT WORK WITH ACCENT MARKS)将 console.log 总字数(DOESNT WORK WITH ACCENT MARKS)

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM