python – C – argsort低效率的矢量版本實現(xiàn)與numpy中的低效率相比

印度阿三17 2019-06-27

展開全文

這是我做的比較. np.argsort定時在float32上,ndarray由1,000,000個元素組成.

In [1]: import numpy as np

In [2]: a = np.random.randn(1000000)

In [3]: a = a.astype(np.float32)

In [4]: %timeit np.argsort(a)
86.1 ms ± 1.59 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)

這里有一個C程序執(zhí)行相同的過程,但是在引用this answer的向量上.

#include <iostream>
#include <vector>
#include <cstddef>
#include <algorithm>
#include <opencv2/opencv.hpp>
#include <numeric>
#include <utility>
int main()
{
  std::vector<float> numbers;
  for (int i = 0; i != 1000000;   i) {
    numbers.push_back((float)rand() / (RAND_MAX));
  }

  double e1 = (double)cv::getTickCount();

  std::vector<size_t> idx(numbers.size());
  std::iota(idx.begin(), idx.end(), 0);

  std::sort(idx.begin(), idx.end(), [&numbers](const size_t &a, const size_t &b)
                                               { return numbers[a] < numbers[b];});

  double e2 = (double)cv::getTickCount();
  std::cout << "Finished in " << 1000 * (e2 - e1) / cv::getTickFrequency() << " milliseconds." << std::endl;
  return 0;
}

它打印完成時間為525.908毫秒.它比numpy版慢得多.所以有人能解釋是什么讓np.argsort這么快嗎？謝謝.

Edit1：np .__ version__返回1.15.0,它運行在Python 3.6.6 | Anaconda自定義(64位)和g – 版本打印8.2.0.操作系統(tǒng)是Manjaro Linux.

Edit2：我用g中的-O2和-O3標志進行編譯,得到的結(jié)果是216.515毫秒和205.017毫秒.這是一個改進,但仍然比numpy版本慢. (Referring to this question)這被刪除了,因為我錯誤地運行了測試,我的筆記本電腦的DC適配器已拔下,這會導致它變慢.在公平競爭中,C陣列和矢量版本的表現(xiàn)相同(約需100ms).

Edit3：另一種方法是用C代替數(shù)組：vector numbers [1000000] ;.之后,運行時間約為100毫秒(/ -5毫秒).完整代碼：

#include <iostream>
#include <vector>
#include <cstddef>
#include <algorithm>
#include <opencv2/opencv.hpp>
#include <numeric>
#include <utility>
int main()
{
  //std::vector<float> numbers;
  float numbers[1000000];
  for (int i = 0; i != 1000000;   i) {
    numbers[i] = ((float)rand() / (RAND_MAX));
  }

  double e1 = (double)cv::getTickCount();

  std::vector<size_t> idx(1000000);
  std::iota(idx.begin(), idx.end(), 0);

  std::sort(idx.begin(), idx.end(), [&numbers](const size_t &a, const size_t &b)
                                               { return numbers[a] < numbers[b];});

  double e2 = (double)cv::getTickCount();
  std::cout << "Finished in " << 1000 * (e2 - e1) / cv::getTickFrequency() << " milliseconds." << std::endl;
  return 0;
}

解決方法:

我接受了你的實施并用10000000項測量它.花了大約1.7秒.

現(xiàn)在我介紹了一堂課

class valuePair {
  public:
    valuePair(int idx, float value) : idx(idx), value(value){};
    int idx;
    float value;
};

with初始化為

std::vector<valuePair> pairs;
for (int i = 0; i != 10000000;   i) {
    pairs.push_back(valuePair(i, (double)rand() / (RAND_MAX)));
}

和排序比完成

std::sort(pairs.begin(), pairs.end(), [&](const valuePair &a, const valuePair &b) { return a.value < b.value; });

此代碼將運行時間縮短至1.1秒.這是我認為由于更好的緩存一致性,但仍然離python結(jié)果相當遠.

來源：https://www./content-1-272551.html

本站是提供個人知識管理的網(wǎng)絡存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導購買等信息，謹防詐騙。如發(fā)現(xiàn)有害或侵權內(nèi)容，請點擊一鍵舉報。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻花（0） +1

來自：印度阿三17 > 《開發(fā)》

舉報/認領

0條評論

發(fā)表

請遵守用戶評論公約

類似文章 更多

印度阿三17

關注對話

TA的最新館藏

mysql中字段空格轉(zhuǎn)換
Git提交信息規(guī)范
動物識別 python 人工智能實驗
require.context 自動引入指定目錄下的文件、組件、redux
Flask+Vue 用戶登錄
比較器comparable 和 comparator

喜歡該文的人也喜歡更多

熱門閱讀換一換

日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

python – C – argsort低效率的矢量版本實現(xiàn)與numpy中的低效率相比