sundance
sundance

Reputation: 2945

Break a string into chunks, keeping words whole in Python

I'd like to break a long string (say, 500 characters) into smaller chunks (say, <=100 characters each), but keeping words whole. That is, the chunks should be as close to 100 characters as possible, but should not cut off whole words. My first reaction was to split the string and loop through each word, concatenating each word to a buffer until reaching the limit, and then starting over for each chunk, but I figure there must be a more efficient way.

Thanks!

Upvotes: 1

Views: 201

Answers (3)

Justin Poehnelt
Justin Poehnelt

Reputation: 3469

import textwrap

long_string = 'Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Aenean commodo ligula eget dolor. Aenean massa. Cum sociis natoque penatibus et magnis dis parturient montes, nascetur ridiculus mus. Donec quam felis, ultricies nec, pellentesque eu, pretium quis, sem. Nulla consequat massa quis enim. Donec pede justo, fringilla vel, aliquet nec, vulputate eget, arcu. In enim justo, rhoncus ut, imperdiet a, venenatis vitae, justo. Nullam dictum felis eu pede mollis pretium. Integer tincidunt. Cras dapibus. Vivamus elementum semper nisi. Aenean vulputate eleifend tellus. Aenean leo ligula, porttitor eu,'
string_list = textwrap.wrap(long_string,100, drop_whitespace = False)

for line in string_list:
    print(line)

print(string_list)

output:

['Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Aenean commodo ligula eget dolor. Aenean ', 'massa. Cum sociis natoque penatibus et magnis dis parturient montes, nascetur ridiculus mus. Donec ', 'quam felis, ultricies nec, pellentesque eu, pretium quis, sem. Nulla consequat massa quis enim. ', 'Donec pede justo, fringilla vel, aliquet nec, vulputate eget, arcu. In enim justo, rhoncus ut, ', 'imperdiet a, venenatis vitae, justo. Nullam dictum felis eu pede mollis pretium. Integer tincidunt. ', 'Cras dapibus. Vivamus elementum semper nisi. Aenean vulputate eleifend tellus. Aenean leo ligula, ', 'porttitor eu,']

use drop_whitespace = False to keep the original spacing

Check out the other options here

Upvotes: 1

alvas
alvas

Reputation: 122082

Without additional imports, try:

s = "Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Aenean commodo ligula eget dolor. Aenean massa. Cum sociis natoque penatibus et magnis dis parturient montes, nascetur ridiculus mus. Donec quam felis, ultricies nec, pellentesque eu, pretium quis, sem. Nulla consequat massa quis enim. Donec pede justo, fringilla vel, aliquet nec, vulputate eget, arcu. In enim justo, rhoncus ut, imperdiet a, venenatis vitae, justo. Nullam dictum felis eu pede mollis pretium. Integer tincidunt. Cras dapibus. Vivamus elementum semper nisi. Aenean vulputate eleifend tellus. Aenean leo ligula, porttitor eu,"

out = []; leftover = ""
for i in map(''.join, zip(*[iter(s)]*100)):
    i = leftover+i
    toappend, _ , leftover = i.rpartition(" ")
    if len(toappend) > 100:
        leftover = toappend[99:]
        toappend = toappend[:99]
    out.append(toappend)

print out

[out]:

['Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Aenean commodo ligula eget dolor. Aenean', 'massa. Cum sociis natoque penatibus et magnis dis parturient montes, nascetur ridiculus mus. Donec', 'quam felis, ultricies nec, pellentesque eu, pretium quis, sem. Nulla consequat massa quis enim. Don', 'ecpede justo, fringilla vel, aliquet nec, vulputate eget, arcu. In enim justo, rhoncus ut, imperdiet', 'a, venenatis vitae, justo. Nullam dictum felis eu pede mollis pretium. Integer tincidunt. Cras', 'dapibus. Vivamus elementum semper nisi. Aenean vulputate eleifend tellus. Aenean leo ligula, portti']

Upvotes: 0

Nafiul Islam
Nafiul Islam

Reputation: 82470

You can do this using the textwrap module in python:

s = "Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Aenean commodo ligula eget dolor. Aenean massa. Cum sociis natoque penatibus et magnis dis parturient montes, nascetur ridiculus mus. Donec quam felis, ultricies nec, pellentesque eu, pretium quis, sem. Nulla consequat massa quis enim. Donec pede justo, fringilla vel, aliquet nec, vulputate eget, arcu. In enim justo, rhoncus ut, imperdiet a, venenatis vitae, justo. Nullam dictum felis eu pede mollis pretium. Integer tincidunt. Cras dapibus. Vivamus elementum semper nisi. Aenean vulputate eleifend tellus. Aenean leo ligula, porttitor eu,"

import textwrap
var = textwrap.wrap(s, 100)
for line in var:
    print(len(line))

print(var)

You can learn more about it here.

Live Demo

Upvotes: 5

Related Questions