How Many Grams?

There is an automatically (intelligently) generated blog which I have read recently.

It appears to be (let’s give ‘seems’ some rest) quite a popular one in a certain section.

I know the corpus on which it was trained.

And the corpus on which it was retrained.

(Including most of the quotes and the comments, especially the long ones).

But I wonder whether the order of n-grams was five or six.

It is definitely better than four grams.

It could even be Se7en.

This brings up a new idea.

What about writing a paper on automatically guessing the order of n-grams, given some generated text?

It may be difficult in the general case, but in our case we know the corpus on which it was trained.

Any takers?

Author: anileklavya

मैं सांगणिक भाषाविज्ञान (Computational Linguistics) में एक शोधकर्ता हूँ। इसके अलावा मैं पढ़ता हूँ, पढ़ता हूँ, पढ़ता हूँ, और कुछ लिखने की कोशिश भी करता हूँ। हाल ही मैं मैने ज़ेडनेट का हिन्दी संस्करण (http://www.zmag.org/hindi) भी शुरू किया है। एक छोटी सी शुरुआत है। उम्मीद करता हूँ और लोग भी इसमें भाग लेंगे और ज़ेडनेट/ज़ेडमैग के सर्वोत्तम लेखों का हिन्दी (जो कि अपने दूसरे रूप उर्दू के साथ करोड़ों लोगों की भाषा है) में अनुवाद किया जा सकेगा।

Leave a Reply

This site uses Akismet to reduce spam. Learn how your comment data is processed.