Когда большое количество элементов нужно сохранить в упорядоченном виде, а ключи могут встречаться несколько раз, пригодится контейнер std::multimap
Придумаем пример, где можно было бы это использовать. В текстах на немецком языке нередко встречаются очень длинные предложения, что не так актуально для английского. Мы реализуем инструмент, который позволит немецким авторам анализировать текстовые файлы, написанные на английском языке, опираясь на длину всех предложений. Чтобы помочь автору улучшить его стиль, программа сгруппирует предложения по длине. Таким образом, автор сможет выбрать самые длинные предложения и разбить их на части.
Как это делается
В этом примере мы считаем данные, введенные пользователем, из стандартного потока ввода, и разобьем их на предложения (а не на слова, как делали раньше). Далее поместим все предложения в контейнер std::multimap
1. Как обычно, включим все необходимые заголовочные файлы. Контейнер std::multimap
std::map
:#include
#include
#include
#include
2. Мы будем применять множество функций из пространства имен std
using namespace std;
3. При токенизации строк путем извлечения их содержимого, стоящего между точками, получим предложения текста, окруженные пробелами, символами перехода на новую строку и т.д. Это нежелательным образом увеличивает их размер, так что отбросим лишние символы с помощью вспомогательной функции, которую сейчас определим:
string filter_ws(const string &s)
{
const char *ws {" \r\n\t"};
const auto a (s.find_first_not_of(ws));
const auto b (s.find_last_not_of(ws));
if (a == string::npos) {
return {};
}
return s.substr(a, b - a + 1);
}
4. Функция определения длины предложения станет принимать гигантскую строку, содержащую весь текст, и возвращать контейнер std::multimap
multimap
{
5. Начнем с объявления структуры multimap
multimap
const auto end_it (end(content));
auto it1 (begin(content));
auto it2 (find(it1, end_it, '.'));
6. Итератор it2
it1
. До тех пор, пока итератор it1
не достигнет конца текста, все будет в порядке. Второе условное выражение проверяет, действительно ли итератор it2
указывает на позицию, стоящую на несколько символов дальше. Если это не так, то у нас не осталось непрочитанных символов. while (it1 != end_it && distance(it1, it2) > 0) {
7. Создаем строку из всех символов между итераторами, после чего удаляем лишние пробельные символы из ее начала и конца, чтобы определить точную длину предложения:
string s {filter_ws({it1, it2})};
8. Возможно, приложение не содержит ничего, кроме пробельных символов. В этом случае просто отбрасываем его. В противном случае установим его длину, определив количество слов. Это делается легко, поскольку все слова разделены одним пробелом
multimap
: if (s.length() > 0) {
const auto words (count(begin(s), end(s), ' ') + 1);
ret.emplace(make_pair(words, move(s)));
}
9. На следующей итерации цикла мы переводим ведущий итератор it2
it1
переводим на следующий символ относительно it1 = next(it2, 1);
it2 = find(it1, end_it, '.');
}
10. После завершения работы цикла контейнер будет содержать все предложения, объединенные в пары с количеством слов, содержащихся в них. Наконец можно вернуть полученный результат:
return ret;
}